論文の概要: Cross-Lingual Transfer Learning for Low-Resource Speech Translation
- arxiv url: http://arxiv.org/abs/2306.00789v2
- Date: Thu, 28 Dec 2023 11:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:02:45.098472
- Title: Cross-Lingual Transfer Learning for Low-Resource Speech Translation
- Title(参考訳): 低リソース音声翻訳のための言語間伝達学習
- Authors: Sameer Khurana, Nauman Dawalatabad, Antoine Laurent, Luis Vicente,
Pablo Gimeno, Victoria Mingote, Jonathan Le Roux, James Glass
- Abstract要約: 本稿では,ハイソース言語から低リソース言語への言語間移動を促進するための3段階移動学習フレームワークを提案する。
提案フレームワークは,既存の2段階の言語間移動学習フレームワークであるXLS-Rに意味的知識蒸留のステップを統合する。
- 参考スコア(独自算出の注目度): 36.20316909167836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper presents a novel three-step transfer learning framework for
enhancing cross-lingual transfer from high- to low-resource languages in the
downstream application of Automatic Speech Translation. The approach integrates
a semantic knowledge-distillation step into the existing two-step cross-lingual
transfer learning framework XLS-R. This extra step aims to encode semantic
knowledge in the multilingual speech encoder pre-trained via Self-Supervised
Learning using unlabeled speech. Our proposed three-step cross-lingual transfer
learning framework addresses the large cross-lingual transfer gap (TRFGap)
observed in the XLS-R framework between high-resource and low-resource
languages. We validate our proposal through extensive experiments and
comparisons on the CoVoST-2 benchmark, showing significant improvements in
translation performance, especially for low-resource languages, and a notable
reduction in the TRFGap.
- Abstract(参考訳): 本稿では,自動音声翻訳のダウンストリーム適用において,ハイソース言語から低リソース言語への言語間移動を促進させる3段階間移動学習フレームワークを提案する。
このアプローチは、既存の2段階の言語間移動学習フレームワークXLS-Rに意味的な知識蒸留ステップを統合する。
この追加ステップは、ラベルなし音声を用いた自己教師付き学習を通じて事前学習された多言語音声エンコーダに意味知識をエンコードすることを目的としている。
提案する3段階の言語間移動学習フレームワークは,高リソース言語と低リソース言語の間のXLS-Rフレームワークで観測される大きな言語間移動ギャップ(TRFGap)に対処する。
covost-2ベンチマークの広範な実験と比較を行い,特に低リソース言語における翻訳性能の大幅な向上と,trfgapの大幅な削減について検証した。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Learning Multilingual Sentence Representations with Cross-lingual
Consistency Regularization [46.09132547431629]
220以上の言語をサポートする一対一の多言語文表現モデル MuSR を紹介する。
我々は、多言語NMTフレームワークを採用することで、補助的なTransformerデコーダと組み合わせた多言語トランスフォーマーエンコーダを訓練する。
多言語類似検索とbitextマイニングタスクの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-06-12T07:39:06Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Cross-lingual Retrieval for Iterative Self-Supervised Training [66.3329263451598]
言語間のアライメントは、Seq2seqモデルを、自身のエンコーダ出力を用いてマイニングされた文対上で訓練することでさらに改善することができる。
我々は,反復型自己教師型訓練のための言語間検索という新しい手法を開発した。
論文 参考訳(メタデータ) (2020-06-16T21:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。