論文の概要: Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models
- arxiv url: http://arxiv.org/abs/2010.12829v4
- Date: Sat, 2 Jan 2021 08:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:01:51.250219
- Title: Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models
- Title(参考訳): 事前学習モデルの効率的な微調整による多言語音声翻訳
- Authors: Xian Li, Changhan Wang, Yun Tang, Chau Tran, Yuqing Tang, Juan Pino,
Alexei Baevski, Alexis Conneau, Michael Auli
- Abstract要約: 最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 82.22294901727933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple yet effective approach to build multilingual
speech-to-text (ST) translation by efficient transfer learning from pretrained
speech encoder and text decoder. Our key finding is that a minimalistic LNA
(LayerNorm and Attention) finetuning can achieve zero-shot crosslingual and
cross-modality transfer ability by only finetuning less than 10% of the
pretrained parameters. This enables effectively leveraging large pretrained
models with low training cost. Using wav2vec 2.0 for acoustic modeling, and
mBART for multilingual text generation, our approach advanced the new
state-of-the-art for 34 translation directions (and surpassing cascaded ST for
23 of them) on large-scale multilingual ST benchmark CoVoST 2 (+6.4 BLEU on
average across 15 En-X directions and +5.1 BLEU on average across 19 X-En
directions). Our approach demonstrates strong zero-shot performance in a
many-to-many multilingual model (+5.7 BLEU on average across 18 non-English
directions), making it an appealing approach for attaining high-quality speech
translation with improved parameter and data efficiency.
- Abstract(参考訳): 本稿では,事前学習された音声エンコーダとテキストデコーダからの効率的な転送学習により,多言語音声からテキストへの翻訳を実現するための簡易かつ効果的な手法を提案する。
我々のキーとなる発見は、最小限のLNA(LayerNorm and Attention)微調整が、事前訓練されたパラメータの10%未満を微調整するだけで、ゼロショットのクロスリンガルとクロスモーダリティの伝達能力を達成できることである。
これにより、トレーニングコストの低い大規模な事前訓練モデルの有効活用が可能になる。
音響モデルにwav2vec 2.0、多言語テキスト生成にmbartを用い、大規模多言語stベンチマークcovost 2(平均15en-x方向で+6.4 bleu、平均19x-en方向で+5.1 bleu)で34の翻訳方向(うち23はカスケードstを上回り)の新たな最先端技術を開発した。
提案手法は,多言語多言語モデル(18の非英語方向に平均5.7 BLEU)において強いゼロショット性能を示し,パラメータとデータ効率を向上した高品質な音声翻訳を実現するための魅力的なアプローチである。
関連論文リスト
- Improved Cross-Lingual Transfer Learning For Automatic Speech
Translation [18.97234151624098]
エンコーダ-デコーダシーケンス-シーケンス変換モデルのエンコーダをSAMU-XLS-Rで初期化することにより,言語間タスクの知識伝達を大幅に改善することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
論文 参考訳(メタデータ) (2023-06-01T15:19:06Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-11-17T18:49:42Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。