論文の概要: Variational Inference, Entropy, and Orthogonality: A Unified Theory of Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2601.03577v1
- Date: Wed, 07 Jan 2026 04:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.263718
- Title: Variational Inference, Entropy, and Orthogonality: A Unified Theory of Mixture-of-Experts
- Title(参考訳): 変分推論・エントロピー・直交性--混合実験の統一理論
- Authors: Ye Su, Yong Liu,
- Abstract要約: Mixture-of-Expertsモデルは、入力毎に専門家のサブセットのみを起動するため、大きな言語モデルを効率的にスケールすることができる。
ベイズの観点から、これらのプラクティスを最適後続近似と事前正規化として導出する最初の統一理論フレームワークを構築した。
我々の研究は、MoEのより深い理解と新しい設計のために、本質的な理論的支援と技術的保証を提供する。
- 参考スコア(独自算出の注目度): 11.888882732753922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts models enable large language models to scale efficiently, as they only activate a subset of experts for each input. Their core mechanisms, Top-k routing and auxiliary load balancing, remain heuristic, however, lacking a cohesive theoretical underpinning to support them. To this end, we build the first unified theoretical framework that rigorously derives these practices as optimal sparse posterior approximation and prior regularization from a Bayesian perspective, while simultaneously framing them as mechanisms to minimize routing ambiguity and maximize channel capacity from an information-theoretic perspective. We also pinpoint the inherent combinatorial hardness of routing, defining it as the NP-hard sparse subset selection problem. We rigorously prove the existence of a "Coherence Barrier"; when expert representations exhibit high mutual coherence, greedy routing strategies theoretically fail to recover the optimal expert subset. Importantly, we formally verify that imposing geometric orthogonality in the expert feature space is sufficient to narrow the divide between the NP-hard global optimum and polynomial-time greedy approximation. Our comparative analyses confirm orthogonality regularization as the optimal engineering relaxation for large-scale models. Our work offers essential theoretical support and technical assurance for a deeper understanding and novel designs of MoE.
- Abstract(参考訳): Mixture-of-Expertsモデルは、入力毎に専門家のサブセットのみを起動するため、大きな言語モデルを効率的にスケールすることができる。
彼らのコアメカニズムであるTop-kルーティングと補助負荷分散は、それでもヒューリスティックであり、それらをサポートするための結合理論の基盤を欠いている。
この目的のために、ベイズの観点からこれらのプラクティスを最適スパースな後続近似と事前正規化として厳格に導出する最初の統一理論フレームワークを構築し、同時に、ルーティングのあいまいさを最小化し、情報理論の観点からチャネルキャパシティを最大化するためのメカニズムとして、それらをフレーミングする。
また、ルーティングの固有の組合せ難易度を、NPハードスパース部分集合選択問題として定義する。
我々は「コヒーレンスバリア」の存在を厳密に証明し、専門家表現が高い相互コヒーレンスを示すとき、グリージールーティング戦略は理論的に最適な専門家サブセットの回復に失敗する。
重要なことは、専門家特徴空間における幾何直交性を導入することは、NP-ハード大域最適化と多項式時間グリード近似の差を狭めるのに十分である。
我々の比較分析は、大規模モデルの最適工学緩和として直交正則化を確認した。
我々の研究は、MoEのより深い理解と新しい設計のために、本質的な理論的支援と技術的保証を提供する。
関連論文リスト
- CogDoc: Towards Unified thinking in Documents [53.41571589733423]
本稿では,人間の認知過程を模倣する統一された粗大な思考枠組みを提案する: 情報ローカライゼーションのための低解像度の「Fast Reading」フェーズ,そして深い推論のための高解像度の「Focused Thinking」フェーズを提案する。
我々は、統合思考フレームワークの訓練後戦略を厳格に調査し、直接強化学習アプローチが監督微調整(SFT)でRLを上回ることを実証した。
具体的には、直接RLは、SFTで観察される「政治紛争」を避けている。
論文 参考訳(メタデータ) (2025-12-14T12:14:17Z) - A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models [3.0247776995428945]
大規模なAIトレーニングでは、Sparse Mixture-of-Experts(s-MoE)レイヤによって、トークン当たりのエキスパートの小さなサブセットのみを活性化することで、スケーリングが可能になる。
本稿では,ALF-LB (Auxiliary-Loss-Free Load Balancing) 法を理論的に解析する枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-03T16:00:02Z) - Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning [14.337056020596465]
CoT-Spaceは、離散トークン予測タスクから連続的、推論レベルのセマンティック空間内の最適化プロセスへの推論を、LLM(Large Language Models)に再キャストする新しい理論フレームワークである。
最適CoT長への収束は、不適合と過適合の基本的なトレードオフの自然な結果であることを示す。
論文 参考訳(メタデータ) (2025-09-04T09:02:16Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Generalized Schrödinger Bridge Matching [54.171931505066]
一般化Schr"odinger Bridge (GSB) 問題設定は、機械学習の内外を問わず、多くの科学領域で一般的である。
我々は最近の進歩に触発された新しいマッチングアルゴリズムである一般化シュリンガーブリッジマッチング(GSBM)を提案する。
このような一般化は条件最適制御の解法として、変分近似を用いることができることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:42:11Z) - PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime [6.645111950779666]
本稿では,補間器の完全密度を示す分布依存型PAC-Chernoff境界を提案する。
我々は、ある補間子がなぜ例外的な一般化を示すのかを示す統一的な理論的枠組みを提示する。
論文 参考訳(メタデータ) (2023-06-19T14:07:10Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。