論文の概要: Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.03096v1
- Date: Fri, 7 Aug 2020 11:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:02:21.818502
- Title: Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning
- Title(参考訳): 強化学習を用いたニューラルシーケンス・ツー・シーケンスモデルのためのインクリメンタルテキストと音声
- Authors: Devang S Ram Mohan, Raphael Lenain, Lorenzo Foglianti, Tian Huey Teh,
Marlene Staib, Alexandra Torresquintero, Jiameng Gao
- Abstract要約: テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.20205278845412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern approaches to text to speech require the entire input character
sequence to be processed before any audio is synthesised. This latency limits
the suitability of such models for time-sensitive tasks like simultaneous
interpretation. Interleaving the action of reading a character with that of
synthesising audio reduces this latency. However, the order of this sequence of
interleaved actions varies across sentences, which raises the question of how
the actions should be chosen. We propose a reinforcement learning based
framework to train an agent to make this decision. We compare our performance
against that of deterministic, rule-based systems. Our results demonstrate that
our agent successfully balances the trade-off between the latency of audio
generation and the quality of synthesised audio. More broadly, we show that
neural sequence-to-sequence models can be adapted to run in an incremental
manner.
- Abstract(参考訳): テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限する。
文字を読み込む動作と音声合成の動作をインターリーブすることで、このレイテンシが低減される。
しかし、この一連の連続した行動の順序は文によって異なり、どのように行動を選択するべきかという問題を引き起こす。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
性能を決定論的・ルールベースのシステムと比較する。
以上の結果から,音声生成のレイテンシと合成音声の品質とのトレードオフのバランスをとることができた。
より広い意味では、神経シーケンスからシーケンスへのモデルが漸進的に実行されるように適応できることを示す。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Using previous acoustic context to improve Text-to-Speech synthesis [30.885417054452905]
我々は,従来の発話音声の埋め込みを生成する音響コンテキストエンコーダを用いて,データのシーケンシャルな性質を活用する。
2つの二次タスクを比較する:発話ペアの順序の予測と、現在の発話音声の埋め込みの予測。
論文 参考訳(メタデータ) (2020-12-07T15:00:18Z) - Replacing Human Audio with Synthetic Audio for On-device Unspoken
Punctuation Prediction [10.516452073178511]
本稿では,音響的特徴とテキスト的特徴を組み合わせた,英語のマルチモーダル・アンスポークな句読解予測システムを提案する。
本研究では,韻律を意識したテキスト音声合成システムを用いて生成した合成データにのみ依存することで,未知の句読点予測問題に対して,高価な人間の音声録音で訓練されたモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-20T11:30:26Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。