論文の概要: Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training
- arxiv url: http://arxiv.org/abs/2010.10048v2
- Date: Wed, 21 Oct 2020 19:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:52:15.754672
- Title: Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training
- Title(参考訳): 自己適応学習による流速・低レイテンシ同時音声合成
- Authors: Renjie Zheng, Mingbo Ma, Baigong Zheng, Kaibo Liu, Jiahong Yuan,
Kenneth Church, Liang Huang
- Abstract要約: 音声から音声への同時翻訳は広く有用であるが,極めて困難である。
ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。
現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。
そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
- 参考スコア(独自算出の注目度): 40.71155396456831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech-to-speech translation is widely useful but extremely
challenging, since it needs to generate target-language speech concurrently
with the source-language speech, with only a few seconds delay. In addition, it
needs to continuously translate a stream of sentences, but all recent solutions
merely focus on the single-sentence scenario. As a result, current approaches
accumulate latencies progressively when the speaker talks faster, and introduce
unnatural pauses when the speaker talks slower. To overcome these issues, we
propose Self-Adaptive Translation (SAT) which flexibly adjusts the length of
translations to accommodate different source speech rates. At similar levels of
translation quality (as measured by BLEU), our method generates more fluent
target speech (as measured by the naturalness metric MOS) with substantially
lower latency than the baseline, in both Zh <-> En directions.
- Abstract(参考訳): 音声と音声の同時翻訳は広く有用であるが、ソース音声と並行してターゲット言語音声を生成する必要があるため非常に難しい。
さらに、文のストリームを連続的に翻訳する必要があるが、最近のソリューションはすべて、シングルセンテンスシナリオにのみ焦点をあてている。
その結果、話者がより速く話すと、現在のアプローチは徐々に遅延を蓄積し、話者が遅く話すと、不自然な停止が発生する。
これらの課題を克服するために,異なるソース音声レートに対応するために,翻訳の長さを柔軟に調整する自己適応翻訳(sat)を提案する。
同様のレベルの翻訳品質(bleuによって測定される)では、zh <-> 方向の両方において、ベースラインよりもかなり低いレイテンシで(自然性メートル法mosで測定されるように)より流動的なターゲット音声を生成する。
関連論文リスト
- StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning [48.84039953531356]
StreamSpeechは、翻訳と同時ポリシーを共同で学習するSimul-S2STモデルである。
CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-05T08:24:22Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - TranSentence: Speech-to-speech Translation via Language-agnostic
Sentence-level Speech Encoding without Language-parallel Data [44.83532231917504]
TranSentenceは、言語並列音声データを持たない新しい音声から音声への翻訳である。
我々は、言語に依存しない文レベルの音声エンコーダから得られるエンコード埋め込みに基づいて音声を生成するために、我々のモデルを訓練する。
我々はTranSentenceを多言語音声音声翻訳に拡張する。
論文 参考訳(メタデータ) (2024-01-17T11:52:40Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Towards Natural and Controllable Cross-Lingual Voice Conversion Based on
Neural TTS Model and Phonetic Posteriorgram [21.652906261475533]
言語間の音声変換は、音素集合のかなりのミスマッチと異なる言語の音声韻律のために難しい問題である。
我々は、新しい言語間VCフレームワークであるFastSpeech-VCを設計するために、ニューラルテキスト音声(TTS)モデルを構築した。
論文 参考訳(メタデータ) (2021-02-03T10:28:07Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。