論文の概要: BLR-MoE: Boosted Language-Routing Mixture of Experts for Domain-Robust Multilingual E2E ASR
- arxiv url: http://arxiv.org/abs/2501.12602v1
- Date: Wed, 22 Jan 2025 02:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 18:44:13.925404
- Title: BLR-MoE: Boosted Language-Routing Mixture of Experts for Domain-Robust Multilingual E2E ASR
- Title(参考訳): BLR-MoE:ドメイン・ロバスト多言語E2E ASRのための言語ルーティング・ミックス
- Authors: Guodong Ma, Wenxuan Wang, Lifeng Zhou, Yuting Yang, Yuke Li, Binbin Du,
- Abstract要約: 我々はLR-MoEにおける言語混乱を自己注意とルータの混乱に分離する。
我々の新しいアーキテクチャでは、MoEはフィードフォワードネットワーク(FFN)だけでなく、自己注意にも利用される。
1万時間MASRデータセットにおけるBLR-MoEの有効性を検証する。
- 参考スコア(独自算出の注目度): 31.213230937048934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Mixture of Expert (MoE) architecture, such as LR-MoE, is often used to alleviate the impact of language confusion on the multilingual ASR (MASR) task. However, it still faces language confusion issues, especially in mismatched domain scenarios. In this paper, we decouple language confusion in LR-MoE into confusion in self-attention and router. To alleviate the language confusion in self-attention, based on LR-MoE, we propose to apply attention-MoE architecture for MASR. In our new architecture, MoE is utilized not only on feed-forward network (FFN) but also on self-attention. In addition, to improve the robustness of the LID-based router on language confusion, we propose expert pruning and router augmentation methods. Combining the above, we get the boosted language-routing MoE (BLR-MoE) architecture. We verify the effectiveness of the proposed BLR-MoE in a 10,000-hour MASR dataset.
- Abstract(参考訳): 近年、LR-MoEのようなMixture of Expert (MoE)アーキテクチャは、多言語ASR(MASR)タスクにおける言語混乱の影響を軽減するためにしばしば用いられる。
しかし、特にミスマッチしたドメインシナリオでは、言語が混乱する問題に直面しています。
本稿では,LR-MoEにおける言語混同を,自己注意とルータの混同に分解する。
LR-MoEに基づく自己注意における言語混乱を軽減するため,MASRに注意-MoEアーキテクチャを適用することを提案する。
我々の新しいアーキテクチャでは、MoEはフィードフォワードネットワーク(FFN)だけでなく、自己注意にも利用される。
さらに,LIDベースのルータの言語混乱に対する堅牢性を向上させるため,専門家によるプルーニングとルータ拡張手法を提案する。
これらを組み合わせることで,言語ルーティング型MoE(BLR-MoE)アーキテクチャが向上する。
1万時間MASRデータセットにおけるBLR-MoEの有効性を検証する。
関連論文リスト
- Lamer-SSL: Layer-aware Mixture of LoRA Experts for Continual Multilingual Expansion of Self-supervised Models without Forgetting [69.6938830307759]
Lamer-SSLはパラメータ効率のよいフレームワークで、LoRA Experts(Lamer)モジュールのLayer-Aware MixturEとリプレイ戦略を統合する。
自動音声認識(ASR)と言語識別(LID)の実験により、Lamer-SSLは自己教師付きモデルを新しい言語に効果的に拡張することを示した。
論文 参考訳(メタデータ) (2026-02-13T09:22:22Z) - MiLorE-SSL: Scaling Multilingual Capabilities in Self-Supervised Models without Forgetting [69.6938830307759]
MiLorE-SSLは、LoRAモジュールとソフトミキシング・オブ・エキスパート・メカニズムを組み合わせて、効率的な連続多言語トレーニングを行う軽量フレームワークである。
LoRAは効率的な低ランク適応を提供するが、ソフトなMoEは言語間のフレキシブルな専門家共有を促進し、言語間の干渉を減らす。
ML-SUPERBの実験では、MiLorE-SSLは新しい言語で高いパフォーマンスを実現し、2.14%のトレーニング可能なパラメータで既存の言語での性能を向上させることが示されている。
論文 参考訳(メタデータ) (2026-01-28T06:48:52Z) - Multimodal In-context Learning for ASR of Low-resource Languages [16.078416187950207]
大規模言語モデル(LLM)を用いたインコンテキスト学習(ICL)はこの問題に対処する。
本稿では,マルチモーダル ICL (MICL) を用いて,LLM が未知言語を学習できるかどうかを検討する。
言語間移動学習は、訓練なしでターゲット言語でのMICL効率を向上させる。
論文 参考訳(メタデータ) (2026-01-09T10:52:23Z) - Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。
LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。
実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文 参考訳(メタデータ) (2025-06-11T07:06:27Z) - Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM [1.3089936156875277]
我々は,Mixture of Experts (MoE) ベースのコネクタと統合された音声条件付き大規模言語モデル (LLM) を提案する。
音声認識タスクへのLLMのテキスト生成能力を向上するためのIDIT機構を提案する。
また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。
論文 参考訳(メタデータ) (2024-09-24T09:20:22Z) - MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing [8.36121848069236]
Mixture of Experts (MoE)は、コードスイッチング音声認識(CS-ASR)タスクを扱うための有望なアプローチである。
CS-ASRタスクを効果的に処理できる動的言語グループベースのMoEであるDLG-MoEを提案する。
さまざまなトップ$の推論とストリーミング機能をサポートし、モデルパラメータを柔軟に訓練してモノリンガルなサブモデルを得ることもできる。
論文 参考訳(メタデータ) (2024-07-26T08:03:07Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。