論文の概要: Translatotron 3: Speech to Speech Translation with Monolingual Data
- arxiv url: http://arxiv.org/abs/2305.17547v2
- Date: Thu, 1 Jun 2023 08:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 21:17:32.983968
- Title: Translatotron 3: Speech to Speech Translation with Monolingual Data
- Title(参考訳): Translatotron 3:モノリンガルデータを用いた音声から音声への翻訳
- Authors: Eliya Nachmani, Alon Levkovitch, Yifan Ding, Chulayuth Asawaroengchai,
Heiga Zen, Michelle Tadmor Ramanovich
- Abstract要約: トランスラトトロン3(Translatotron 3)は、音声から音声への直接翻訳モデルを、完全に教師なしの方法でのみモノリンガルな音声テキストデータセットから訓練するための新しいアプローチである。
スペイン語と英語の音声音声翻訳における実験結果から,Translatotron 3はベースラインカスケードシステムよりも優れていた。
- 参考スコア(独自算出の注目度): 21.354371050450577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Translatotron 3, a novel approach to train a direct
speech-to-speech translation model from monolingual speech-text datasets only
in a fully unsupervised manner. Translatotron 3 combines masked autoencoder,
unsupervised embedding mapping, and back-translation to achieve this goal.
Experimental results in speech-to-speech translation tasks between Spanish and
English show that Translatotron 3 outperforms a baseline cascade system,
reporting 18.14 BLEU points improvement on the synthesized
Unpaired-Conversational dataset. In contrast to supervised approaches that
necessitate real paired data, which is unavailable, or specialized modeling to
replicate para-/non-linguistic information, Translatotron 3 showcases its
capability to retain para-/non-linguistic such as pauses, speaking rates, and
speaker identity. Audio samples can be found in our website
http://google-research.github.io/lingvo-lab/translatotron3
- Abstract(参考訳): 本稿ではtranslatotron 3について述べる。このtranslatotron 3は,単言語音声テキストデータセットから直接音声から音声への翻訳モデルを,教師なしの方法でのみ訓練する新しい手法である。
Translatotron 3はマスク付きオートエンコーダ、教師なし埋め込みマッピング、バックトランスレーションを組み合わせてこの目標を達成する。
スペイン語と英語の音声音声翻訳タスクの実験結果から、Translatotron 3はベースラインカスケードシステムよりも優れており、18.14 BLEUは合成されたアンペア・会話データセットの改善点を報告している。
不可能な実対データを必要とする教師付きアプローチや、パラ言語情報や非言語情報を複製する特殊なモデリングとは対照的に、Translatotron 3は停止、発話率、話者識別などのパラ言語/非言語情報を維持できる能力を示している。
オーディオサンプルは当社のwebサイトhttp://google-research.github.io/lingvo-lab/translatotron3にあります。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Translatotron 2: Robust direct speech-to-speech translation [6.3470332633611015]
本稿では、エンドツーエンドにトレーニング可能なニューラルダイレクト音声音声合成モデルであるTranslatotron 2を提案する。
トランスラトトロン2は、翻訳品質と予測された音声の自然さにおいて、オリジナルのトランスラトトロンよりも大きなマージンで優れている。
本稿では,翻訳音声における音源話者の声の保持方法を提案する。
論文 参考訳(メタデータ) (2021-07-19T07:43:49Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。