論文の概要: Translatotron 3: Speech to Speech Translation with Monolingual Data
- arxiv url: http://arxiv.org/abs/2305.17547v3
- Date: Tue, 16 Jan 2024 08:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:45:23.156614
- Title: Translatotron 3: Speech to Speech Translation with Monolingual Data
- Title(参考訳): Translatotron 3:モノリンガルデータを用いた音声から音声への翻訳
- Authors: Eliya Nachmani, Alon Levkovitch, Yifan Ding, Chulayuth Asawaroengchai,
Heiga Zen, Michelle Tadmor Ramanovich
- Abstract要約: Translatotron 3は、モノリンガル音声テキストデータセットからの教師なし直接音声音声翻訳のための新しいアプローチである。
その結果,Translatotron 3はベースラインカスケードシステムより優れていた。
- 参考スコア(独自算出の注目度): 23.376969078371282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Translatotron 3, a novel approach to unsupervised direct
speech-to-speech translation from monolingual speech-text datasets by combining
masked autoencoder, unsupervised embedding mapping, and back-translation.
Experimental results in speech-to-speech translation tasks between Spanish and
English show that Translatotron 3 outperforms a baseline cascade system,
reporting $18.14$ BLEU points improvement on the synthesized
Unpaired-Conversational dataset. In contrast to supervised approaches that
necessitate real paired data, or specialized modeling to replicate
para-/non-linguistic information such as pauses, speaking rates, and speaker
identity, Translatotron 3 showcases its capability to retain it. Audio samples
can be found at http://google-research.github.io/lingvo-lab/translatotron3
- Abstract(参考訳): 本稿では,マスク付きオートエンコーダ,教師なし埋め込みマッピング,バックトランスレーションを組み合わせることで,単言語音声テキストから教師なし音声へ直接翻訳する新しい手法であるtranslatotron 3について述べる。
スペイン語と英語の音声音声翻訳タスクの実験結果から、Translatotron 3はベースラインのカスケードシステムよりも優れており、合成されたUnpaired-Conversationalデータセットの18.14ドルBLEUポイントの改善が報告されている。
実際のペアデータを必要とする教師付きアプローチや、ポーズ、発話率、話者識別などのパラ言語/非言語情報を複製する特殊なモデリングとは対照的に、Translatotron 3はそれを保持する能力を示している。
オーディオサンプルはhttp://google-research.github.io/lingvo-lab/translatotron3で見ることができる。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Translatotron 2: Robust direct speech-to-speech translation [6.3470332633611015]
本稿では、エンドツーエンドにトレーニング可能なニューラルダイレクト音声音声合成モデルであるTranslatotron 2を提案する。
トランスラトトロン2は、翻訳品質と予測された音声の自然さにおいて、オリジナルのトランスラトトロンよりも大きなマージンで優れている。
本稿では,翻訳音声における音源話者の声の保持方法を提案する。
論文 参考訳(メタデータ) (2021-07-19T07:43:49Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。