論文の概要: Phrase break prediction with bidirectional encoder representations in
Japanese text-to-speech synthesis
- arxiv url: http://arxiv.org/abs/2104.12395v1
- Date: Mon, 26 Apr 2021 08:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:53:57.562600
- Title: Phrase break prediction with bidirectional encoder representations in
Japanese text-to-speech synthesis
- Title(参考訳): 音声合成における双方向エンコーダ表現を用いたフレーズブレーク予測
- Authors: Kosuke Futamata, Byeongseon Park, Ryuichi Yamamoto, Kentaro Tachibana
- Abstract要約: 本稿では,事前学習した大言語モデルであるBERTから抽出した暗黙的特徴と,BiLSTMから抽出した明示的特徴とを言語的特徴とを組み合わせ,句分割予測手法を提案する。
提案手法は,従来の手法では捕捉できない潜在意味論を抽出するために,両表現を考慮に入れている。
- 参考スコア(独自算出の注目度): 8.391631335854457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel phrase break prediction method that combines implicit
features extracted from a pre-trained large language model, a.k.a BERT, and
explicit features extracted from BiLSTM with linguistic features. In
conventional BiLSTM based methods, word representations and/or sentence
representations are used as independent components. The proposed method takes
account of both representations to extract the latent semantics, which cannot
be captured by previous methods. The objective evaluation results show that the
proposed method obtains an absolute improvement of 3.2 points for the F1 score
compared with BiLSTM-based conventional methods using linguistic features.
Moreover, the perceptual listening test results verify that a TTS system that
applied our proposed method achieved a mean opinion score of 4.39 in prosody
naturalness, which is highly competitive with the score of 4.37 for synthesized
speech with ground-truth phrase breaks.
- Abstract(参考訳): 本稿では,事前学習した大言語モデルであるBERTから抽出した暗黙的特徴と,BiLSTMから抽出した明示的特徴とを言語的特徴とを組み合わせ,句分割予測手法を提案する。
従来のBiLSTM法では、単語表現や文表現が独立したコンポーネントとして使用される。
提案手法は,従来の手法では捕捉できない潜在意味論を抽出するために,両表現を考慮に入れている。
評価の結果,提案手法は言語特徴を用いた従来のBiLSTM法と比較して,F1得点の3.2点の絶対的改善が得られることがわかった。
また,本手法を適用したttsシステムにおいて,韻律的自然性において平均評価スコア4.39を,接頭辞節切断による合成音声のスコア4.37と高い競合性を示すことを検証した。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Evaluating Methods for Ground-Truth-Free Foreign Accent Conversion [43.97757799751764]
外部アクセント変換(英: Foreign accent conversion, FAC)は、非母語話者のアクセント付き音声を、同じ話者アイデンティティを持つ母語話者に変換することを目的とした、音声変換(VC)の特殊な応用である。
本研究は,最近提案された3つの基本構造のないFACの評価手法であり,これらすべては,アクセントを適切に変換し,話者同一性を制御するために,シーケンス・ツー・シーケンス(seq2seq)と非並列VCモデルのパワーを活用することを目的としている。
論文 参考訳(メタデータ) (2023-09-05T11:22:08Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Language Models for Lexical Inference in Context [4.581468205348204]
文脈における語彙推論(英: Lexical inference in context, LIiC)とは、2つの非常に類似した文間のテキストの含意を認識するタスクである。
本稿では,この課題に対する事前学習言語モデル(LM)に基づいて,最初のアプローチを定式化し,評価する。
LIiC に対する事前訓練による LM の可能性が示された。
論文 参考訳(メタデータ) (2021-02-10T09:08:22Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Translate Reverberated Speech to Anechoic Ones: Speech Dereverberation
with BERT [6.876734825043823]
本研究では,単一チャンネル音声の残響について考察する。
自然言語処理(NLP)領域における双方向変換モデル(BERT)の成功に触発され,そのバックボーンシーケンスモデルとしての適用性を検討した。
論文 参考訳(メタデータ) (2020-07-16T00:45:27Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。