論文の概要: T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine
Translation
- arxiv url: http://arxiv.org/abs/2205.12216v1
- Date: Tue, 24 May 2022 17:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 14:35:50.721033
- Title: T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine
Translation
- Title(参考訳): t-modules:ゼロショットクロスモーダル機械翻訳のための翻訳モジュール
- Authors: Paul-Ambroise Duquenne, Hongyu Gong, Beno\^it Sagot, Holger Schwenk
- Abstract要約: そこで本稿では,翻訳タスクのための音声とテキスト間のゼロショット・クロスモーダル転送を行う手法を提案する。
多言語音声とテキストは、結合した固定サイズ表現空間に符号化される。
言語とモダリティ間のゼロショット変換を可能にするため、これらのマルチモーダルおよびマルチリンガルの固定サイズ表現をデコードするための異なるアプローチを比較する。
- 参考スコア(独自算出の注目度): 19.332953510406327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new approach to perform zero-shot cross-modal transfer between
speech and text for translation tasks. Multilingual speech and text are encoded
in a joint fixed-size representation space. Then, we compare different
approaches to decode these multimodal and multilingual fixed-size
representations, enabling zero-shot translation between languages and
modalities. All our models are trained without the need of cross-modal labeled
translation data. Despite a fixed-size representation, we achieve very
competitive results on several text and speech translation tasks. In
particular, we significantly improve the state-of-the-art for zero-shot speech
translation on Must-C. Incorporating a speech decoder in our framework, we
introduce the first results for zero-shot direct speech-to-speech and
text-to-speech translation.
- Abstract(参考訳): 本稿では,翻訳タスクのための音声とテキスト間のゼロショットクロスモーダル転送を行う新しい手法を提案する。
多言語音声とテキストはジョイント固定サイズの表現空間に符号化される。
次に,マルチモーダル表現と多言語固定サイズの表現をデコードするための異なるアプローチを比較し,言語とモダリティ間のゼロショット翻訳を可能にする。
全てのモデルは、クロスモーダルなラベル付き翻訳データを必要とせずに訓練されている。
固定サイズの表現にもかかわらず、いくつかのテキストおよび音声翻訳タスクにおいて非常に競争力のある結果が得られる。
特に, must-cにおけるゼロショット音声翻訳の最先端性が大幅に向上した。
フレームワークに音声デコーダを組み込んだゼロショット直接音声合成とテキスト音声翻訳の最初の結果を紹介する。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer [22.744544108288274]
本研究は,多言語学習により,このようなアプローチをさらに改善できることを示す。
複数の言語に対するXLSRに基づく教師ありアプローチよりも優れているにもかかわらず、ゼロショット・クロスモーダル音声翻訳の大幅な改善が観察された。
論文 参考訳(メタデータ) (2023-10-05T17:44:37Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - mSLAM: Massively multilingual joint pre-training for speech and text [43.32334037420761]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。
テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) (2022-02-03T02:26:40Z) - Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining
and Speech Translation [21.622039537743607]
本稿では,FAT-MLM(Fused Acoustic and Text Masked Language Model)を提案する。
3つの翻訳方向の実験により,FAT-MLMから微調整した音声翻訳モデルが翻訳品質を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-02-10T22:53:40Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。