論文の概要: When Are Experts Misrouted? Counterfactual Routing Analysis in Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2605.07260v1
- Date: Fri, 08 May 2026 05:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.818187
- Title: When Are Experts Misrouted? Counterfactual Routing Analysis in Mixture-of-Experts Language Models
- Title(参考訳): 専門家はいつ誤解されるのか : 混在言語モデルにおける非現実的ルーティング分析
- Authors: Youngsik Yoon, Siwei Wang, Wei Chen, Jungseul Ok,
- Abstract要約: Mixture-of-Experts (MoE)言語モデルは、各トークンを専門家の小さなサブセットにルーティングする。
検証された推論軌道において,各標準経路を同一のトークンに対してサンプル化された等価な代替手段と比較し,実効トークンに割り当てる次の確率でスコアする。
標準ルータは信頼性の高いトークンではルートユーティリティと整合性があるが、ハード推論を駆動する脆弱なトークンでは非形式的である。
- 参考スコア(独自算出の注目度): 27.942734943134983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) language models route each token to a small subset of experts, but whether the routes selected by a trained top-$k$ router are good ones is rarely evaluated directly. Holding the model fixed, we compare each standard route against sampled equal-compute alternatives for the same token and score each by the next-token probability it assigns to the realized token in a verified reasoning trajectory. The result is sharply token-conditional: the standard router is well-aligned with route utility on confident tokens but uninformative on the fragile tokens that drive hard reasoning, where lower-loss equal-compute routes consistently exist inside the frozen model but are not selected. The same pattern holds across Qwen3-30B-A3B, GPT-OSS-20B, DeepSeek-V2-Lite, and OLMoE-1B-7B, and follows structurally from how standard top-$k$ training evaluates routing decisions: the language modeling loss scores only the executed route, and load balancing depends only on aggregate routing statistics. A minimal router-only update to the final-layer router, leaving every expert and every other router frozen, is sufficient to shift pass@K on AIME 2024+2025 and HMMT 2025 for both Qwen3-30B-A3B and GPT-OSS-20B, suggesting that at least part of the failure reflects router-reachable misallocation rather than expert capacity alone.
- Abstract(参考訳): Mixture-of-Experts (MoE)言語モデルは、各トークンを専門家の小さなサブセットにルートするが、トレーニング済みのトップ$k$ルータで選択されたルートが良いルートであるかどうかを直接評価することは滅多にない。
モデルが固定された場合、各標準ルートを同じトークンに対してサンプル化された等値な代替手段と比較し、検証された推論軌道における実効トークンに割り当てる次の確率でスコアする。
標準ルータは、確実なトークン上のルートユーティリティと整合性があるが、ハード推論を駆動する脆弱なトークンには非形式的である。
同じパターンは、Qwen3-30B-A3B、GPT-OSS-20B、DeepSeek-V2-Lite、OLMoE-1B-7Bにまたがって保持され、標準の$kのトレーニングがルーティング決定を評価する方法から構造的に従う。
AIME 2024+2025 と HMMT 2025 は Qwen3-30B-A3B と GPT-OSS-20B の両方でパスをシフトするのに十分である。
関連論文リスト
- Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts [49.09151538536423]
Mixture-of-experts (MoE)モデルはトークンごとに専門家のサブセットだけを活性化することでスケーラブルなトランスフォーマーアーキテクチャを実現する。
最近の証拠は、より粒度の細かい専門家、すなわち、少数の大きな専門家ではなく、多くの小さな専門家によって、パフォーマンスが向上することを示している。
ベクトル量子化(VQ)に基づく逆インデックス型ルーティングアーキテクチャである MoE (AIR-MoE) の適応型逆インデックスルーティングを導入する。
論文 参考訳(メタデータ) (2026-05-06T14:15:10Z) - Self-Routing: Parameter-Free Expert Routing from Hidden States [14.018297453424454]
Mixture-of-Experts (MoE)レイヤは、トークンごとに専門家の小さなサブセットをアクティベートすることで、モデルのキャパシティを向上する。
本稿では,トークン隠蔽状態の指定された部分空間を専門家のロジットとして直接使用するパラメータフリーなルーティング機構であるSelf-Routingを提案する。
論文 参考訳(メタデータ) (2026-04-01T03:05:20Z) - When Routing Collapses: On the Degenerate Convergence of LLM Routers [46.01380774114097]
ユーザのコスト予算が増加するにつれて、ルータは体系的に最も有能で最も高価なモデルにデフォルトとなる。
モデルランキングを直接学習する決定対応ルータであるEquiを提案する。
RouterBenchでは、最強の先行ルータと比較して、GPT-4レベルのパフォーマンスでコストを約17%削減する。
論文 参考訳(メタデータ) (2026-02-03T12:51:55Z) - Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts [32.65737144630759]
Mixture-of-Experts (MoE)アーキテクチャは、パラメトリックな"router"を使用して、トークンを専門家のまばらなサブセットにディスパッチすることで、大きな言語モデルを効率的にスケールする。
我々は、類似したケースのメモリから最適な専門家の割り当てを再利用する検索強化ルーティングフレームワークであるkNN-MoEを紹介する。
実験の結果、kNN-MoEはゼロショットベースラインよりも優れており、計算コストのかかる微調整に匹敵することがわかった。
論文 参考訳(メタデータ) (2026-01-05T14:16:11Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Routers in Vision Mixture of Experts: An Empirical Study [26.51711534240885]
Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。
MoEsの主要なコンポーネントはルータであり、どのパラメータ(専門家)プロセスのサブセットが埋め込み(トークン)を特徴付けるかを決定する。
論文 参考訳(メタデータ) (2024-01-29T08:58:07Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。