論文の概要: Improved Cross-Lingual Transfer Learning For Automatic Speech
Translation
- arxiv url: http://arxiv.org/abs/2306.00789v4
- Date: Thu, 25 Jan 2024 07:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:26:13.076358
- Title: Improved Cross-Lingual Transfer Learning For Automatic Speech
Translation
- Title(参考訳): 音声自動翻訳のための言語間変換学習の改善
- Authors: Sameer Khurana, Nauman Dawalatabad, Antoine Laurent, Luis Vicente,
Pablo Gimeno, Victoria Mingote, James Glass
- Abstract要約: エンコーダ-デコーダシーケンス-シーケンス変換モデルのエンコーダをSAMU-XLS-Rで初期化することにより,言語間タスクの知識伝達を大幅に改善することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
- 参考スコア(独自算出の注目度): 18.97234151624098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in multilingual speech-to-text translation is topical. Having a
single model that supports multiple translation tasks is desirable. The goal of
this work it to improve cross-lingual transfer learning in multilingual
speech-to-text translation via semantic knowledge distillation. We show that by
initializing the encoder of the encoder-decoder sequence-to-sequence
translation model with SAMU-XLS-R, a multilingual speech transformer encoder
trained using multi-modal (speech-text) semantic knowledge distillation, we
achieve significantly better cross-lingual task knowledge transfer than the
baseline XLS-R, a multilingual speech transformer encoder trained via
self-supervised learning. We demonstrate the effectiveness of our approach on
two popular datasets, namely, CoVoST-2 and Europarl. On the 21 translation
tasks of the CoVoST-2 benchmark, we achieve an average improvement of 12.8 BLEU
points over the baselines. In the zero-shot translation scenario, we achieve an
average gain of 18.8 and 11.9 average BLEU points on unseen medium and
low-resource languages. We make similar observations on Europarl speech
translation benchmark.
- Abstract(参考訳): 多言語音声テキスト翻訳の研究は話題となっている。
複数の翻訳タスクをサポートする単一のモデルを持つことが望ましい。
本研究の目的は,意味知識蒸留による多言語間音声翻訳における言語間伝達学習を改善することである。
マルチモーダル(音声テキスト)意味知識蒸留法を用いて訓練した多言語音声変換器SAMU-XLS-Rを用いてエンコーダ列列列列列列列列変換モデルの初期化を行うことにより、自己教師学習により訓練された多言語音声変換器XLS-Rよりもはるかに優れた言語間タスク知識伝達を実現することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
CoVoST-2ベンチマークの21の翻訳タスクでは、ベースラインよりも平均12.8のBLEU点が向上した。
ゼロショット翻訳のシナリオでは、未知の中・低リソース言語で平均18.8と1.9のBLEU点が得られる。
我々はEuroparl音声翻訳ベンチマークで同様の観察を行う。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Learning Multilingual Sentence Representations with Cross-lingual
Consistency Regularization [46.09132547431629]
220以上の言語をサポートする一対一の多言語文表現モデル MuSR を紹介する。
我々は、多言語NMTフレームワークを採用することで、補助的なTransformerデコーダと組み合わせた多言語トランスフォーマーエンコーダを訓練する。
多言語類似検索とbitextマイニングタスクの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-06-12T07:39:06Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Cross-lingual Retrieval for Iterative Self-Supervised Training [66.3329263451598]
言語間のアライメントは、Seq2seqモデルを、自身のエンコーダ出力を用いてマイニングされた文対上で訓練することでさらに改善することができる。
我々は,反復型自己教師型訓練のための言語間検索という新しい手法を開発した。
論文 参考訳(メタデータ) (2020-06-16T21:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。