論文の概要: Speech to Speech Translation with Translatotron: A State of the Art Review
- arxiv url: http://arxiv.org/abs/2502.05980v2
- Date: Wed, 19 Feb 2025 21:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:43:43.741737
- Title: Speech to Speech Translation with Translatotron: A State of the Art Review
- Title(参考訳): Translatotronを用いた音声音声翻訳の現状
- Authors: Jules R. Kala, Emmanuel Adetiba, Abdultaofeek Abayom, Oluwatobi E. Dare, Ayodele H. Ifijeh,
- Abstract要約: カスケードに基づく音声から音声への翻訳は、非常に長い間、ベンチマークとみなされてきた。
例えば、ある言語から別の言語へのスピーチの翻訳に要する時間と、複雑なエラーなどである。
Translatotronは、Googleがこれらの問題に対処するために設計したものである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A cascade-based speech-to-speech translation has been considered a benchmark for a very long time, but it is plagued by many issues, like the time taken to translate a speech from one language to another and compound errors. These issues are because a cascade-based method uses a combination of methods such as speech recognition, speech-to-text translation, and finally, text-to-speech translation. Translatotron, a sequence-to-sequence direct speech-to-speech translation model was designed by Google to address the issues of compound errors associated with cascade model. Today there are 3 versions of the Translatotron model: Translatotron 1, Translatotron 2, and Translatotron3. The first version was designed as a proof of concept to show that a direct speech-to-speech translation was possible, it was found to be less effective than the cascade model but was producing promising results. Translatotron2 was an improved version of Translatotron 1 with results similar to the cascade model. Translatotron 3 the latest version of the model is better than the cascade model at some points. In this paper, a complete review of speech-to-speech translation will be presented, with a particular focus on all the versions of Translatotron models. We will also show that Translatotron is the best model to bridge the language gap between African Languages and other well-formalized languages.
- Abstract(参考訳): カスケードベースの音声音声翻訳は、非常に長い間、ベンチマークとみなされてきたが、ある言語から別の言語への音声翻訳に要する時間や複雑な誤りなど、多くの問題に悩まされている。
これらの問題は、カスケードに基づく手法が音声認識、音声からテキストへの翻訳、そして最後にテキストから音声への翻訳といった手法を組み合わせているためである。
Translatotronは、シーケンシャル・ツー・シーケンス直接音声音声合成モデルであり、カスケードモデルに関連する複合エラーの問題に対処するためにGoogleが設計した。
今日、トランスラトトロンモデルの3つのバージョンがあり、トランスラトトロン1、トランスラトトロン2、トランスラトトロン3である。
最初のバージョンは、直接音声から音声への翻訳が可能であり、カスケードモデルよりも効果が低いが、有望な結果が得られることを示すための概念実証として設計された。
トランスラトトロン2はトランスラトトロン1の改良型であり、カスケードモデルと同様の結果が得られた。
Translatotron 3の最新バージョンは、いくつかの点でカスケードモデルより優れている。
本稿では,トランスラトトロンモデルの全バージョンに焦点をあて,音声音声翻訳の完全レビューを行う。
また、Translatotronは、アフリカ言語と他のよく形式化された言語の間の言語ギャップを埋める最良のモデルであることも示します。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Translatotron 3: Speech to Speech Translation with Monolingual Data [23.376969078371282]
Translatotron 3は、モノリンガル音声テキストデータセットからの教師なし直接音声音声翻訳のための新しいアプローチである。
その結果,Translatotron 3はベースラインカスケードシステムより優れていた。
論文 参考訳(メタデータ) (2023-05-27T18:30:54Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Translatotron 2: Robust direct speech-to-speech translation [6.3470332633611015]
本稿では、エンドツーエンドにトレーニング可能なニューラルダイレクト音声音声合成モデルであるTranslatotron 2を提案する。
トランスラトトロン2は、翻訳品質と予測された音声の自然さにおいて、オリジナルのトランスラトトロンよりも大きなマージンで優れている。
本稿では,翻訳音声における音源話者の声の保持方法を提案する。
論文 参考訳(メタデータ) (2021-07-19T07:43:49Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。