論文の概要: Building High-accuracy Multilingual ASR with Gated Language Experts and
Curriculum Training
- arxiv url: http://arxiv.org/abs/2303.00786v2
- Date: Fri, 7 Jul 2023 23:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 22:15:09.256861
- Title: Building High-accuracy Multilingual ASR with Gated Language Experts and
Curriculum Training
- Title(参考訳): Gated Language Experts and Curriculum Trainingによる高精度多言語ASRの構築
- Authors: Eric Sun, Jinyu Li, Yuxuan Hu, Yimeng Zhu, Long Zhou, Jian Xue,
Peidong Wang, Linquan Liu, Shujie Liu, Edward Lin, Yifan Gong
- Abstract要約: 本稿では,多言語トランスデューサモデルを強化するために,ゲート言語の専門家とカリキュラムトレーニングを提案する。
本手法はゲーティング機構とLID損失を組み込んで,トランスフォーマーの専門家が言語固有の情報を学ぶことを可能にする。
- 参考スコア(独自算出の注目度): 45.48362355283723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose gated language experts and curriculum training to enhance
multilingual transformer transducer models without requiring language
identification (LID) input from users during inference. Our method incorporates
a gating mechanism and LID loss, enabling transformer experts to learn
language-specific information. By combining gated transformer experts with
shared transformer layers, we construct multilingual transformer blocks and
utilize linear experts to effectively regularize the joint network. The
curriculum training scheme leverages LID to guide the gated experts in
improving their respective language performance. Experimental results on a
bilingual task involving English and Spanish demonstrate significant
improvements, with average relative word error reductions of 12.5% and 7.3%
compared to the baseline bilingual and monolingual models, respectively.
Notably, our method achieves performance comparable to the upper-bound model
trained and inferred with oracle LID. Extending our approach to trilingual,
quadrilingual, and pentalingual models reveals similar advantages to those
observed in the bilingual models, highlighting its ease of extension to
multiple languages.
- Abstract(参考訳): 推論中に言語識別(LID)入力を必要とせずに多言語トランスデューサモデルを強化するためのゲート言語エキスパートとカリキュラムトレーニングを提案する。
本手法では, ゲーティング機構と蓋損失を組み込んで, トランスフォーマーの専門家が言語固有の情報を学ぶことができる。
ゲートトランスの専門家と共用トランスレイヤを組み合わせることで,多言語トランスフォーマーブロックを構築し,線形専門家を用いてジョイントネットワークを効果的に調整する。
カリキュラム・トレーニング・スキームはlidを活用し、それぞれの言語性能を改善するための指導を行う。
英語とスペイン語を含むバイリンガルタスクの実験結果は、ベースラインのバイリンガルモデルとモノリンガルモデルに比較して平均12.5%と7.3%の相対的な単語誤り率で大幅に改善された。
特に,本手法は,オラクルLIDを用いて訓練し,推定した上界モデルに匹敵する性能を実現する。
私たちのアプローチを三言語、四言語、五言語モデルに拡張することは、二言語モデルで観察されるものと類似の利点を示し、複数の言語への拡張の容易さを強調する。
関連論文リスト
- 1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? [46.43162333819418]
大規模言語モデル(LLM)は、様々な言語にまたがって情報を処理できることから、大きな注目を集めている。
それらの能力にもかかわらず、異なる言語で同じクエリを扱うことに矛盾を示し、さらなる進歩のための課題を提示している。
本稿では,多言語からの知識を集約することで,LLMの多言語的性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T20:32:53Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Improved Self-Supervised Multilingual Speech Representation Learning
Combined with Auxiliary Language Information [21.250763472985824]
自己教師型多言語音声表現学習は,多言語自動音声認識の性能向上に成功している。
しかし、教師付き学習と同様、多言語事前学習も言語干渉に悩まされる可能性がある。
本稿では,補助言語情報を活用することで,自己教師付き多言語事前学習を改善するためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-12-07T06:18:59Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。