論文の概要: Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition
- arxiv url: http://arxiv.org/abs/2507.05724v1
- Date: Tue, 08 Jul 2025 07:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.654759
- Title: Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition
- Title(参考訳): Omni-Router:Sparse Mixture-of-Expertsにおける音声認識のためのルーティング決定の共有
- Authors: Zijin Gu, Tatiana Likhomanenko, Navdeep Jaitly,
- Abstract要約: Mixture-of-experts (MoE)アーキテクチャは、言語モデリングから自動音声認識(ASR)へと拡張されている。
我々の分析によると、ほとんどの層におけるルータは、他の層におけるルータの選択と強く相関しない専門家の選択を行う。
異なるレイヤの専門家間の協力を強化し、より高度な専門化を促進するために、私たちは異なるMoE層にまたがる共有ルータを使用します。
- 参考スコア(独自算出の注目度): 12.160284873788019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoE) architectures have expanded from language modeling to automatic speech recognition (ASR). Traditional MoE methods, such as the Switch Transformer, route experts independently within each layer. Our analysis reveals that routers in most layers make expert choices that are not strongly correlated with the choices of the routers in other layers. To increase the cooperation between experts in different layers and encourage greater specialization, we use a shared router across different MoE layers. We call this model \emph{Omni-router Transformer}. Extensive experiments on a large-scale pseudo-labeled dataset and evaluations across 10 diverse, out-of-domain ASR benchmarks demonstrate that the Omni-router Transformer is able to achieve lower training loss and consistently outperform dense and Switch Transformer models, reducing average word error rates by 11.2% and 8.2%, respectively, while providing structured expert usage and improved robustness to diverse data.
- Abstract(参考訳): Mixture-of-experts (MoE)アーキテクチャは、言語モデリングから自動音声認識(ASR)へと拡張されている。
Switch Transformerのような従来のMoEメソッドは、各レイヤ内で専門家を独立にルーティングする。
我々の分析によると、ほとんどの層におけるルータは、他の層におけるルータの選択と強く相関しない専門家の選択を行う。
異なるレイヤの専門家間の協力を強化し、より高度な専門化を促進するために、私たちは異なるMoE層にまたがる共有ルータを使用します。
このモデルを \emph{Omni-router Transformer} と呼ぶ。
Omni-router Transformerはトレーニング損失が低く、Switch Transformerモデルよりも一貫して優れており、平均的な単語エラー率を11.2%と8.2%削減し、構造化された専門家の使用率と多様なデータに対する堅牢性の向上を実現している。
関連論文リスト
- Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文 参考訳(メタデータ) (2025-06-23T02:15:43Z) - Optimizing MoE Routers: Design, Implementation, and Evaluation in Transformer Models [0.0]
Mixture of Experts (MoE)アーキテクチャは言語モデルのスケーラビリティを向上するが、そのパフォーマンスはトークンを専門の専門家に移すルータモジュールに依存している。
この研究は、MoEルータの設計の比較分析を提供し、その性能を効率的かつ効率的な大規模モデル展開のために最適化するための洞察を提供する。
論文 参考訳(メタデータ) (2025-06-19T15:55:43Z) - Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。
進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。
R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:17:57Z) - Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。
近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。
本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文 参考訳(メタデータ) (2025-04-29T11:06:03Z) - ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.73697327316267]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。
我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。
ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文 参考訳(メタデータ) (2024-12-19T10:21:20Z) - Routers in Vision Mixture of Experts: An Empirical Study [26.51711534240885]
Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。
MoEsの主要なコンポーネントはルータであり、どのパラメータ(専門家)プロセスのサブセットが埋め込み(トークン)を特徴付けるかを決定する。
論文 参考訳(メタデータ) (2024-01-29T08:58:07Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。