論文の概要: Building High-accuracy Multilingual ASR with Gated Language Experts and
Curriculum Training
- arxiv url: http://arxiv.org/abs/2303.00786v1
- Date: Wed, 1 Mar 2023 19:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 17:05:34.582225
- Title: Building High-accuracy Multilingual ASR with Gated Language Experts and
Curriculum Training
- Title(参考訳): Gated Language Experts and Curriculum Trainingによる高精度多言語ASRの構築
- Authors: Eric Sun, Jinyu Li, Yuxuan Hu, Yimeng Zhu, Long Zhou, Jian Xue,
Peidong Wang, Linquan Liu, Shujie Liu, Edward Lin, Yifan Gong
- Abstract要約: 我々はトランスフォーマーエンコーダが言語に依存した情報を学習できるようにゲーティング機構とLID損失を定義する。
音声とトークンラベルのジョイント情報の整合性を向上するために,線形専門家を結合ネットワーク出力に適用する。
- 参考スコア(独自算出の注目度): 45.48362355283723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose gated language experts to improve multilingual transformer
transducer models without any language identification (LID) input from users
during inference. We define gating mechanism and LID loss to let transformer
encoders learn language-dependent information, construct the multilingual
transformer block with gated transformer experts and shared transformer layers
for compact models, and apply linear experts on joint network output to better
regularize speech acoustic and token label joint information. Furthermore, a
curriculum training scheme is proposed to let LID guide the gated language
experts for better serving their corresponding languages. Evaluated on the
English and Spanish bilingual task, our methods achieve average 12.5% and 7.3%
relative word error reductions over the baseline bilingual model and
monolingual models, respectively, obtaining similar results to the upper bound
model trained and inferred with oracle LID. We further explore our method on
trilingual, quadrilingual, and pentalingual models, and observe similar
advantages as in the bilingual models, which demonstrates the easy extension to
more languages.
- Abstract(参考訳): 本稿では,言語識別 (LID) をユーザから入力することなく,多言語トランスデューサモデルを改善するために,ゲート言語の専門家を提案する。
変換器エンコーダが言語依存の情報を学ぶためのゲーティング機構と蓋損失を定義し、ゲートトランスの専門家と共有トランスフォーマー層を持つ多言語トランスフォーマーブロックをコンパクトモデル向けに構築し、ジョイントネットワーク出力に関する線形専門家を適用し、音声音響とトークンラベルのジョイント情報をより規則化する。
さらに,LIDをゲート言語の専門家に指導して,それに対応する言語をよりよく提供するためのカリキュラム学習手法を提案する。
本手法は,英語とスペイン語のバイリンガル課題に基づいて,ベースラインバイリンガルモデルとモノリンガルモデルに比較して平均12.5%と7.3%の単語誤り削減を実現し,オラクルLIDで訓練および推定した上界モデルと類似した結果を得た。
さらに、三言語モデル、四言語モデル、五言語モデルについて検討し、二言語モデルと同様の利点を観察し、さらに多くの言語への容易に拡張できることを示す。
関連論文リスト
- 1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? [46.43162333819418]
大規模言語モデル(LLM)は、様々な言語にまたがって情報を処理できることから、大きな注目を集めている。
それらの能力にもかかわらず、異なる言語で同じクエリを扱うことに矛盾を示し、さらなる進歩のための課題を提示している。
本稿では,多言語からの知識を集約することで,LLMの多言語的性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T20:32:53Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Improved Self-Supervised Multilingual Speech Representation Learning
Combined with Auxiliary Language Information [21.250763472985824]
自己教師型多言語音声表現学習は,多言語自動音声認識の性能向上に成功している。
しかし、教師付き学習と同様、多言語事前学習も言語干渉に悩まされる可能性がある。
本稿では,補助言語情報を活用することで,自己教師付き多言語事前学習を改善するためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-12-07T06:18:59Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。