論文の概要: Dynamic Multi-Expert Projectors with Stabilized Routing for Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.19451v1
- Date: Tue, 27 Jan 2026 10:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.287465
- Title: Dynamic Multi-Expert Projectors with Stabilized Routing for Multilingual Speech Recognition
- Title(参考訳): 多言語音声認識のための安定化ルーティング付き動的多言語プロジェクタ
- Authors: Isha Pandey, Ashish Mittal, Vartul Bahuguna, Ganesh Ramakrishnan,
- Abstract要約: SMEAR-MoEは、安定なMixture-of-Expertsプロジェクターである。
単一のプロジェクタベースラインに対して、最大で7.6%の相対的なWER削減を実現している。
これらの結果は、安定多言語プロジェクタがスケーラブルで堅牢な多言語ASRの鍵であることを証明している。
- 参考スコア(独自算出の注目度): 12.734282414649682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in LLM-based ASR connect frozen speech encoders with Large Language Models (LLMs) via lightweight projectors. While effective in monolingual settings, a single projector struggles to capture the diverse acoustic-to-semantic mappings required for multilingual ASR. To address this, we propose SMEAR-MoE, a stabilized Mixture-of-Experts projector that ensures dense gradient flow to all experts, preventing expert collapse while enabling cross-lingual sharing. We systematically compare monolithic, static multi-projector, and dynamic MoE designs across four Indic languages (Hindi, Marathi, Tamil, Telugu). Our SMEAR-MoE achieves strong performance, delivering upto a 7.6% relative WER reduction over the single-projector baseline, while maintaining comparable runtime efficiency. Analysis of expert routing further shows linguistically meaningful specialization, with related languages sharing experts. These results demonstrate that stable multi-expert projectors are key to scalable and robust multilingual ASR.
- Abstract(参考訳): LLMベースのASRの最近の進歩は、軽量プロジェクタを介して、冷凍音声エンコーダとLLM(Large Language Models)を接続している。
単言語設定では有効であるが、単一のプロジェクタは多言語ASRに必要な多様な音響対意味マッピングを捉えるのに苦労する。
SMEAR-MoEは,全ての専門家に密集した勾配流を保証し,専門家の崩壊を防止し,言語間共有を可能にする。
モノリシック、静的なマルチプロジェクタ、動的MoE設計を4つのIndic言語(ヒンディー語、マラシ語、タミル語、テルグ語)で体系的に比較する。
私たちのSMEAR-MoEは高いパフォーマンスを実現し、単一のプロジェクタベースラインに対して7.6%の相対的なWER削減を実現します。
エキスパートルーティングの分析はさらに言語学的に意味のある特殊化を示し、関連する言語は専門家を共有する。
これらの結果は、安定多言語プロジェクタがスケーラブルで堅牢な多言語ASRの鍵であることを証明している。
関連論文リスト
- Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering [61.0787902713059]
本研究では,中間層におけるルーティング動作を,支配言語に関連する共有専門家に適応的に誘導するルーティング誘導型ステアリング手法を提案する。
私たちのコードはhttp://conctsai.com/multilingualism-in-Mixture-of-Experts-LLMsで利用可能です。
論文 参考訳(メタデータ) (2026-01-20T15:04:25Z) - MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts [56.106778414865126]
MultiPL-MoEはエキスパートとトークンレベルのエキスパートのハイブリッドである。
セグメントレベルのMoEは、プログラミング言語の構文構造と文脈パターンをよりよく捉えるために、2つの革新的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-08-22T06:24:52Z) - Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。
LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。
実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文 参考訳(メタデータ) (2025-06-11T07:06:27Z) - Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文 参考訳(メタデータ) (2025-05-22T17:59:39Z) - Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach [37.690797152736465]
Llama-SMoPは、推論コストを増大させることなくモデル容量をスケールするためにスパース・ミクチャー・オブ・プロジェクター(SMoP)モジュールを使用している。
ASR、VSR、AVSRタスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-05-20T13:20:55Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM [1.3089936156875277]
我々は,Mixture of Experts (MoE) ベースのコネクタと統合された音声条件付き大規模言語モデル (LLM) を提案する。
音声認識タスクへのLLMのテキスト生成能力を向上するためのIDIT機構を提案する。
また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。
論文 参考訳(メタデータ) (2024-09-24T09:20:22Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。