論文の概要: Understanding and Bridging the Modality Gap for Speech Translation
- arxiv url: http://arxiv.org/abs/2305.08706v1
- Date: Mon, 15 May 2023 15:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:08:00.459874
- Title: Understanding and Bridging the Modality Gap for Speech Translation
- Title(参考訳): 音声翻訳におけるモーダリティギャップの理解と橋渡し
- Authors: Qingkai Fang, Yang Feng
- Abstract要約: マルチタスク学習は、機械翻訳(MT)とエンドツーエンド音声翻訳(ST)の間で知識を共有する効果的な方法の1つである。
しかし、音声とテキストの違いにより、STとMTの間には常にギャップがある。
本稿では,まず,このモダリティギャップを対象側の表現差から理解し,そのモダリティギャップとニューラルマシン翻訳における他のよく知られた問題,すなわち露出バイアスを関連付けることを目的とする。
- 参考スコア(独自算出の注目度): 11.13240570688547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: How to achieve better end-to-end speech translation (ST) by leveraging (text)
machine translation (MT) data? Among various existing techniques, multi-task
learning is one of the effective ways to share knowledge between ST and MT in
which additional MT data can help to learn source-to-target mapping. However,
due to the differences between speech and text, there is always a gap between
ST and MT. In this paper, we first aim to understand this modality gap from the
target-side representation differences, and link the modality gap to another
well-known problem in neural machine translation: exposure bias. We find that
the modality gap is relatively small during training except for some difficult
cases, but keeps increasing during inference due to the cascading effect. To
address these problems, we propose the Cross-modal Regularization with
Scheduled Sampling (Cress) method. Specifically, we regularize the output
predictions of ST and MT, whose target-side contexts are derived by sampling
between ground truth words and self-generated words with a varying probability.
Furthermore, we introduce token-level adaptive training which assigns different
training weights to target tokens to handle difficult cases with large modality
gaps. Experiments and analysis show that our approach effectively bridges the
modality gap, and achieves promising results in all eight directions of the
MuST-C dataset.
- Abstract(参考訳): テキスト機械翻訳(MT)データを利用して、より優れたエンドツーエンド音声翻訳(ST)を実現するには?
既存の様々な技術の中で、マルチタスク学習はSTとMTの間で知識を共有する効果的な方法の1つであり、追加のMTデータがソース・ツー・ターゲットマッピングの学習に役立つ。
しかし、音声とテキストの相違により、常にSTとMTの間にギャップがある。本稿では、このモダリティギャップとターゲット側の表現差をまず理解し、そのモダリティギャップをニューラルマシン翻訳における他のよく知られた問題である露出バイアスと結びつける。
トレーニング中は,いくつかの難しいケースを除いて,モダリティギャップは比較的小さいが,カスケード効果により推論中は増加傾向にある。
これらの問題に対処するため,スケジューリングサンプリング(Cress)法を用いたクロスモーダル正規化を提案する。
具体的には,ST と MT の出力予測を正則化し,ターゲット側コンテキストは,基本真理語と自己生成語を様々な確率でサンプリングすることによって導出する。
さらに,目標トークンに対して異なるトレーニング重みを割り当てたトークンレベルの適応トレーニングを導入し,大きなモダリティギャップを持つ難しいケースに対処する。
実験と解析により,本手法はモダリティギャップを効果的に橋渡しし,MST-Cデータセットの8方向すべてで有望な結果が得られることが示された。
関連論文リスト
- TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation [15.139447549817483]
エンドツーエンドの音声翻訳(ST)は、クロスモーダルなタスクである。
既存の手法は、しばしば機械翻訳(MT)から知識を伝達しようとする
本稿では,モダリティギャップを克服するために,最適輸送CMOTを用いたクロスモーダル混成を提案する。
論文 参考訳(メタデータ) (2023-05-24T02:13:48Z) - Improving Speech Translation by Cross-Modal Multi-Grained Contrastive
Learning [8.501945512734268]
E2E-STに対するFCCL(Fine- and Coarse- Granularity Contrastive Learning)アプローチを提案する。
提案手法の重要な要素は,文レベルとフレームレベルの両方でコントラスト学習を適用し,リッチな意味情報を含む音声表現を抽出するための包括的なガイドを提供することである。
MuST-Cベンチマーク実験の結果,提案手法は8つの言語対に対して,最先端のE2E-STベースラインを大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2023-04-20T13:41:56Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Towards Multimodal Simultaneous Neural Machine Translation [28.536262015508722]
同時翻訳では、リアルタイム理解を実現するために、話者の発話が完了する前に文章を翻訳する。
このタスクは、復号時に入力情報が不足しているため、一般的な全文翻訳よりもはるかに難しい。
視覚情報を付加的なモダリティとして活用するマルチモーダル同時ニューラルネットワーク翻訳(MSNMT)を提案する。
論文 参考訳(メタデータ) (2020-04-07T08:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。