論文の概要: CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation
- arxiv url: http://arxiv.org/abs/2305.14635v1
- Date: Wed, 24 May 2023 02:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:38:28.394509
- Title: CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation
- Title(参考訳): CMOT:音声翻訳のための最適移動によるクロスモーダル混合
- Authors: Yan Zhou, Qingkai Fang, Yang Feng
- Abstract要約: エンドツーエンドの音声翻訳(ST)は、クロスモーダルなタスクである。
既存の手法は、しばしば機械翻訳(MT)から知識を伝達しようとする
本稿では,モダリティギャップを克服するために,最適輸送CMOTを用いたクロスモーダル混成を提案する。
- 参考スコア(独自算出の注目度): 15.139447549817483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech translation (ST) is the task of translating speech signals
in the source language into text in the target language. As a cross-modal task,
end-to-end ST is difficult to train with limited data. Existing methods often
try to transfer knowledge from machine translation (MT), but their performances
are restricted by the modality gap between speech and text. In this paper, we
propose Cross-modal Mixup via Optimal Transport CMOT to overcome the modality
gap. We find the alignment between speech and text sequences via optimal
transport and then mix up the sequences from different modalities at a token
level using the alignment. Experiments on the MuST-C ST benchmark demonstrate
that CMOT achieves an average BLEU of 30.0 in 8 translation directions,
outperforming previous methods. Further analysis shows CMOT can adaptively find
the alignment between modalities, which helps alleviate the modality gap
between speech and text. Code is publicly available at
https://github.com/ictnlp/CMOT.
- Abstract(参考訳): end-to-end speech translation (st) は、ソース言語の音声信号を対象言語でテキストに変換するタスクである。
クロスモーダルなタスクとして、限られたデータでエンドツーエンドSTをトレーニングすることは困難である。
既存の手法はしばしば機械翻訳(mt)から知識を転送しようとするが、その性能は音声とテキストのモーダリティギャップによって制限される。
本稿では,モダリティギャップを克服するために,最適輸送CMOTを用いたクロスモーダル混合を提案する。
最適なトランスポートにより音声とテキストの配列のアライメントを見つけ、アライメントを用いて異なるモダリティからのシーケンスをトークンレベルで混合する。
MuST-C STベンチマークの実験では、CMOTは平均30.0のBLEUを8つの翻訳方向で達成し、従来の方法よりも優れていた。
さらに分析した結果、cmotは音声とテキスト間のモーダリティギャップを軽減するために、モーダリティ間のアライメントを適応的に見つけることができる。
コードはhttps://github.com/ictnlp/CMOT.comで公開されている。
関連論文リスト
- TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Understanding and Bridging the Modality Gap for Speech Translation [11.13240570688547]
マルチタスク学習は、機械翻訳(MT)とエンドツーエンド音声翻訳(ST)の間で知識を共有する効果的な方法の1つである。
しかし、音声とテキストの違いにより、STとMTの間には常にギャップがある。
本稿では,まず,このモダリティギャップを対象側の表現差から理解し,そのモダリティギャップとニューラルマシン翻訳における他のよく知られた問題,すなわち露出バイアスを関連付けることを目的とする。
論文 参考訳(メタデータ) (2023-05-15T15:09:18Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Generating Synthetic Speech from SpokenVocab for Speech Translation [18.525896864903416]
エンドツーエンドの音声翻訳システムの訓練には十分な大規模データが必要である。
1つの実用的な解決策は、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。
本稿では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。
論文 参考訳(メタデータ) (2022-10-15T03:07:44Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。