論文の概要: Improving Speech Translation by Cross-Modal Multi-Grained Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2304.10309v1
- Date: Thu, 20 Apr 2023 13:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:14:33.448477
- Title: Improving Speech Translation by Cross-Modal Multi-Grained Contrastive
Learning
- Title(参考訳): クロスモーダル多段階コントラスト学習による音声翻訳の改善
- Authors: Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu,
and Wei-Qiang Zhang
- Abstract要約: E2E-STに対するFCCL(Fine- and Coarse- Granularity Contrastive Learning)アプローチを提案する。
提案手法の重要な要素は,文レベルとフレームレベルの両方でコントラスト学習を適用し,リッチな意味情報を含む音声表現を抽出するための包括的なガイドを提供することである。
MuST-Cベンチマーク実験の結果,提案手法は8つの言語対に対して,最先端のE2E-STベースラインを大幅に上回ることがわかった。
- 参考スコア(独自算出の注目度): 8.501945512734268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The end-to-end speech translation (E2E-ST) model has gradually become a
mainstream paradigm due to its low latency and less error propagation. However,
it is non-trivial to train such a model well due to the task complexity and
data scarcity. The speech-and-text modality differences result in the E2E-ST
model performance usually inferior to the corresponding machine translation
(MT) model. Based on the above observation, existing methods often use
sharingmechanisms to carry out implicit knowledge transfer by imposing various
constraints. However, the final model often performs worse on the MT task than
the MT model trained alone, which means that the knowledge transfer ability of
this method is also limited. To deal with these problems, we propose the FCCL
(Fine- and Coarse- Granularity Contrastive Learning) approach for E2E-ST, which
makes explicit knowledge transfer through cross-modal multi-grained contrastive
learning. A key ingredient of our approach is applying contrastive learning at
both sentence- and frame-level to give the comprehensive guide for extracting
speech representations containing rich semantic information.In addition, we
adopt a simple whitening method to alleviate the representation degeneration in
the MT model, which adversely affects contrast learning. Experiments on the
MuST-C benchmark show that our proposed approach significantly outperforms the
state-of-the-art E2E-ST baselines on all eight language pairs. Further analysis
indicates that FCCL can free up its capacity from learning grammatical
structure information and force more layers to learn semantic information.
- Abstract(参考訳): エンド・ツー・エンド音声翻訳(E2E-ST)モデルは,低レイテンシと低エラー伝搬のため,徐々に主流のパラダイムになりつつある。
しかし、タスクの複雑さとデータ不足のため、そのようなモデルをうまく訓練するのは簡単ではない。
E2E-STモデルの性能は通常、対応する機械翻訳(MT)モデルに劣る。
このような観察に基づいて、既存の手法では様々な制約を課すことで暗黙的な知識伝達を行うために共有機構を用いることが多い。
しかし、最終モデルは、単独で訓練されたMTモデルよりも、MTタスクでしばしば悪化するので、この手法の知識伝達能力も制限される。
これらの問題に対処するため,E2E-STに対するFCCL(Fine- and Coarse- Granularity Contrastive Learning)アプローチを提案する。
本手法の重要な要素は、文・フレームレベルでのコントラスト学習を応用し、豊富な意味情報を含む音声表現抽出のための包括的ガイドを与えることである。さらに、mtモデルにおける表現変性を緩和する簡易なホワイトニング手法を採用し、コントラスト学習に悪影響を及ぼす。
MuST-Cベンチマーク実験の結果,提案手法は8つの言語対に対して最先端のE2E-STベースラインを大幅に上回ることがわかった。
さらなる分析は、FCCLが文法構造情報から能力を解放し、より多くの層に意味情報を学習させることを示唆している。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Understanding and Bridging the Modality Gap for Speech Translation [11.13240570688547]
マルチタスク学習は、機械翻訳(MT)とエンドツーエンド音声翻訳(ST)の間で知識を共有する効果的な方法の1つである。
しかし、音声とテキストの違いにより、STとMTの間には常にギャップがある。
本稿では,まず,このモダリティギャップを対象側の表現差から理解し,そのモダリティギャップとニューラルマシン翻訳における他のよく知られた問題,すなわち露出バイアスを関連付けることを目的とする。
論文 参考訳(メタデータ) (2023-05-15T15:09:18Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。