論文の概要: Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation
- arxiv url: http://arxiv.org/abs/2210.09556v1
- Date: Tue, 18 Oct 2022 03:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:41:49.721844
- Title: Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation
- Title(参考訳): ゼロショット音声翻訳が可能な離散的クロスモーダルアライメント
- Authors: Chen Wang, Yuchen Liu, Boxing Chen, Jiajun Zhang, Wei Luo, Zhongqiang
Huang, Chengqing Zong
- Abstract要約: エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
- 参考スコア(独自算出の注目度): 71.35243644890537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Speech Translation (ST) aims at translating the source language
speech into target language text without generating the intermediate
transcriptions. However, the training of end-to-end methods relies on parallel
ST data, which are difficult and expensive to obtain. Fortunately, the
supervised data for automatic speech recognition (ASR) and machine translation
(MT) are usually more accessible, making zero-shot speech translation a
potential direction. Existing zero-shot methods fail to align the two
modalities of speech and text into a shared semantic space, resulting in much
worse performance compared to the supervised ST methods. In order to enable
zero-shot ST, we propose a novel Discrete Cross-Modal Alignment (DCMA) method
that employs a shared discrete vocabulary space to accommodate and match both
modalities of speech and text. Specifically, we introduce a vector quantization
module to discretize the continuous representations of speech and text into a
finite set of virtual tokens, and use ASR data to map corresponding speech and
text to the same virtual token in a shared codebook. This way, source language
speech can be embedded in the same semantic space as the source language text,
which can be then transformed into target language text with an MT module.
Experiments on multiple language pairs demonstrate that our zero-shot ST method
significantly improves the SOTA, and even performers on par with the strong
supervised ST baselines.
- Abstract(参考訳): エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
しかし、エンドツーエンドメソッドのトレーニングは並列stデータに依存しており、取得が困難で費用がかかる。
幸いなことに、自動音声認識(ASR)と機械翻訳(MT)のための教師付きデータは通常よりアクセスしやすく、ゼロショット音声翻訳が潜在的な方向となる。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に整合させることに失敗し、教師付きST法に比べてパフォーマンスが大幅に低下する。
ゼロショットSTを実現するために,音声とテキストの両方のモダリティに適合する離散語彙空間を共用した,離散的クロスモーダルアライメント(DCMA)手法を提案する。
具体的には、ベクトル量子化モジュールを導入し、音声とテキストの連続表現を有限の仮想トークン集合に離散化し、ASRデータを用いて対応する音声とテキストを共有コードブック内の同じ仮想トークンにマッピングする。
このように、ソース言語音声は、ソース言語テキストと同じ意味空間に埋め込むことができ、MTモジュールでターゲット言語テキストに変換することができる。
複数の言語対の実験により、我々のゼロショットST法はSOTAを大幅に改善し、また、強い教師付きSTベースラインと同等のパフォーマーでさえも改善することが示された。
関連論文リスト
- Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing [35.31866559807704]
音声とテキスト間のモダリティアライメントは 未解決の問題です
本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。
この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-09-02T11:46:05Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。