論文の概要: An Investigation of the Relation Between Grapheme Embeddings and
Pronunciation for Tacotron-based Systems
- arxiv url: http://arxiv.org/abs/2010.10694v2
- Date: Sun, 4 Apr 2021 23:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:42:19.816630
- Title: An Investigation of the Relation Between Grapheme Embeddings and
Pronunciation for Tacotron-based Systems
- Title(参考訳): タコトロン系におけるグラファイム埋め込みと発音の関係の検討
- Authors: Antoine Perquin, Erica Cooper, Junichi Yamagishi
- Abstract要約: 本研究は,フランス語のグラテムで学習したタコトロンモデルと単語の発音の関係について検討した。
この性質により、タコトロンモデルで学習したグラファイム埋め込みは、合成音声の音素変換や発音制御といったタスクに有用であることを示す。
- 参考スコア(独自算出の注目度): 40.74576723690707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models, particularly Tacotron-based ones, are currently a popular
solution for text-to-speech synthesis. They allow the production of
high-quality synthesized speech with little to no text preprocessing. Indeed,
they can be trained using either graphemes or phonemes as input directly.
However, in the case of grapheme inputs, little is known concerning the
relation between the underlying representations learned by the model and word
pronunciations. This work investigates this relation in the case of a Tacotron
model trained on French graphemes. Our analysis shows that grapheme embeddings
are related to phoneme information despite no such information being present
during training. Thanks to this property, we show that grapheme embeddings
learned by Tacotron models can be useful for tasks such as grapheme-to-phoneme
conversion and control of the pronunciation in synthetic speech.
- Abstract(参考訳): エンドツーエンドモデル、特にTacotronベースのモデルは、現在テキスト音声合成の一般的なソリューションである。
テキストの前処理がほとんどない高品質の合成音声を生成することができる。
実際、それらを直接入力としてグラフや音素を使って訓練することができる。
しかし、グラファイム入力の場合、モデルが学習した基礎的表現と単語の発音との関係についてはほとんど分かっていない。
この研究は、フランスのグラニュムで訓練されたタコトロンモデルの場合、この関係を考察する。
分析の結果,学習中にそのような情報が存在しないにもかかわらず,音素情報にグラフム埋め込みが関連していることがわかった。
この性質により、タコトロンモデルで学習したグラファイム埋め込みは、合成音声における音素変換や発音の制御といったタスクに有用であることを示す。
関連論文リスト
- Small Language Models Like Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
我々は,Llamaアーキテクチャに基づく小型モデルは,標準構文および新しい語彙/音声のベンチマークにおいて,強力な言語性能が得られることを示す。
本研究は,言語習得と処理の計算研究に適する言語学的に妥当な言語モデルを作成するための,有望な方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Language Independent Neuro-Symbolic Semantic Parsing for Form
Understanding [11.042088913869462]
LAGNNと呼ばれるスキャンされたフォームに対するユニークなエンティティ関係グラフ解析法を提案する。
本モデルでは, 形式を単語関係グラフに解析し, 実体と関係を共同で同定する。
我々のモデルは、レイアウト情報から境界ボックス間の相対的な間隔を考慮し、言語間の転送を容易にする。
論文 参考訳(メタデータ) (2023-05-08T05:03:07Z) - Infusing Commonsense World Models with Graph Knowledge [89.27044249858332]
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討する。
基礎となるゲーム状態のグラフ表現は、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練するために使用することができる。
論文 参考訳(メタデータ) (2023-01-13T19:58:27Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Relational Graph Learning for Grounded Video Description Generation [85.27028390401136]
接地記述(GVD)は、キャプションモデルが適切なビデオ領域に動的に参加することを奨励し、記述を生成する。
このような設定は、キャプションモデルの決定を説明し、モデルが記述中のオブジェクト単語を幻覚させるのを防ぐのに役立つ。
我々はGVDのための新しいリレーショナルグラフ学習フレームワークを設計し、細粒度視覚概念を探索するために、言語に精通したシーングラフ表現を設計する。
論文 参考訳(メタデータ) (2021-12-02T03:48:45Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - LSTM Acoustic Models Learn to Align and Pronounce with Graphemes [22.453756228457017]
そこで本研究では,純粋にデータ駆動型で学習可能なグラファイムに基づく音声認識手法を提案する。
大規模なデータセットで学習すると,音素出力モデルとWERが競合することを示す。
論文 参考訳(メタデータ) (2020-08-13T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。