論文の概要: BLR-MoE: Boosted Language-Routing Mixture of Experts for Domain-Robust Multilingual E2E ASR
- arxiv url: http://arxiv.org/abs/2501.12602v1
- Date: Wed, 22 Jan 2025 02:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:28:47.200413
- Title: BLR-MoE: Boosted Language-Routing Mixture of Experts for Domain-Robust Multilingual E2E ASR
- Title(参考訳): BLR-MoE:ドメイン・ロバスト多言語E2E ASRのための言語ルーティング・ミックス
- Authors: Guodong Ma, Wenxuan Wang, Lifeng Zhou, Yuting Yang, Yuke Li, Binbin Du,
- Abstract要約: 我々はLR-MoEにおける言語混乱を自己注意とルータの混乱に分離する。
我々の新しいアーキテクチャでは、MoEはフィードフォワードネットワーク(FFN)だけでなく、自己注意にも利用される。
1万時間MASRデータセットにおけるBLR-MoEの有効性を検証する。
- 参考スコア(独自算出の注目度): 31.213230937048934
- License:
- Abstract: Recently, the Mixture of Expert (MoE) architecture, such as LR-MoE, is often used to alleviate the impact of language confusion on the multilingual ASR (MASR) task. However, it still faces language confusion issues, especially in mismatched domain scenarios. In this paper, we decouple language confusion in LR-MoE into confusion in self-attention and router. To alleviate the language confusion in self-attention, based on LR-MoE, we propose to apply attention-MoE architecture for MASR. In our new architecture, MoE is utilized not only on feed-forward network (FFN) but also on self-attention. In addition, to improve the robustness of the LID-based router on language confusion, we propose expert pruning and router augmentation methods. Combining the above, we get the boosted language-routing MoE (BLR-MoE) architecture. We verify the effectiveness of the proposed BLR-MoE in a 10,000-hour MASR dataset.
- Abstract(参考訳): 近年、LR-MoEのようなMixture of Expert (MoE)アーキテクチャは、多言語ASR(MASR)タスクにおける言語混乱の影響を軽減するためにしばしば用いられる。
しかし、特にミスマッチしたドメインシナリオでは、言語が混乱する問題に直面しています。
本稿では,LR-MoEにおける言語混同を,自己注意とルータの混同に分解する。
LR-MoEに基づく自己注意における言語混乱を軽減するため,MASRに注意-MoEアーキテクチャを適用することを提案する。
我々の新しいアーキテクチャでは、MoEはフィードフォワードネットワーク(FFN)だけでなく、自己注意にも利用される。
さらに,LIDベースのルータの言語混乱に対する堅牢性を向上させるため,専門家によるプルーニングとルータ拡張手法を提案する。
これらを組み合わせることで,言語ルーティング型MoE(BLR-MoE)アーキテクチャが向上する。
1万時間MASRデータセットにおけるBLR-MoEの有効性を検証する。
関連論文リスト
- Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM [1.3089936156875277]
我々は,Mixture of Experts (MoE) ベースのコネクタと統合された音声条件付き大規模言語モデル (LLM) を提案する。
音声認識タスクへのLLMのテキスト生成能力を向上するためのIDIT機構を提案する。
また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。
論文 参考訳(メタデータ) (2024-09-24T09:20:22Z) - MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing [8.36121848069236]
Mixture of Experts (MoE)は、コードスイッチング音声認識(CS-ASR)タスクを扱うための有望なアプローチである。
CS-ASRタスクを効果的に処理できる動的言語グループベースのMoEであるDLG-MoEを提案する。
さまざまなトップ$の推論とストリーミング機能をサポートし、モデルパラメータを柔軟に訓練してモノリンガルなサブモデルを得ることもできる。
論文 参考訳(メタデータ) (2024-07-26T08:03:07Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。