論文の概要: Affinity Is Not Enough: Recovering the Free Energy Principle in Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2605.00604v1
- Date: Fri, 01 May 2026 12:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.943645
- Title: Affinity Is Not Enough: Recovering the Free Energy Principle in Mixture-of-Experts
- Title(参考訳): アフィニティは十分ではない:実験の混合における自由エネルギー原則の復活
- Authors: Man Yung Wong,
- Abstract要約: Sfinity MoEは、現在のトークンが1つの分布に属し、次に別の分布に属するドメイン遷移で失敗する。
3つの軽量ゲート修正により、0.748 +/-0.002(124x)に上昇する。
ベータルーチン化は遷移ステップBを6.56+/-0.01から4.01+/-0.15(β-MoE)に還元することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse MoE routing fails at domain transitions, where the current token belongs to one distribution and the next to another. In a controlled experiment (4 experts, 5 seeds), standard affinity routing assigns only 0.006 +/- 0.001 probability to the correct expert at the transition. Three lightweight gate modifications raise this to 0.748 +/- 0.002 (124x), cutting experts needed for 99% coverage from infeasible to a small constant: temporal memory (beta), a per-expert LIF membrane potential accumulating routing context across tokens; precision-weighted gating (Pi), a per-expert inverse variance of recent prediction error, yielding 31x contrast between reliable and unreliable experts; and anticipatory routing, a next-state predictor conditioned on the beta-accumulated hidden state. The mechanisms draw from Friston's Free Energy Principle and use LIF dynamics from spiking neural networks. An ablation across all 2^3 subsets reveals a super-additive beta x Ant interaction: anticipation alone gives nothing (+0.000 +/- 0.001); beta alone gives modest gain (+0.295 +/- 0.013); combined they close 75% of the oracle gap (+0.741 +/- 0.002, exceeding the sum by +0.446 +/- 0.014). This is structural: a stateless predictor cannot detect approaching transitions because pre-transition tokens are distributionally identical to within-domain tokens. In a character-level MoE LM (5 seeds), beta-routing reduces transition-step BPC from 6.56 +/- 0.01 (Standard) to 4.01 +/- 0.15 (beta-MoE); the beta + Ant gate places 0.86 +/- 0.02 probability on the correct domain expert before that domain appears in input, vs 0.42 +/- 0.12 for Standard MoE. Reference implementations (~200 lines each): https://github.com/russellwmy/affinity-is-not-enough
- Abstract(参考訳): スパースMoEルーティングは、現在のトークンが1つのディストリビューションに属し、次が次となるドメイントランジションで失敗する。
制御された実験(4つの専門家、5つの種)では、標準親和性ルーティングは移行時に正しい専門家に0.006 +/- 0.001確率しか割り当てない。
3つの軽量ゲート修正は、0.748 +/- 0.002 (124x)に上昇し、99%のカバレッジに必要な専門家を小さな定数にカットする: 時間記憶(beta)、トークン間のルーティングコンテキストを蓄積するLIF膜毎の電位、最近の予測エラーの精度重み付きゲーティング(Pi)、信頼できない専門家と信頼できない専門家の31倍のコントラスト、およびベータ蓄積された隠れ状態に条件付けられた次の状態予測器。
このメカニズムはフリストンのフリーエネルギー原理から導かれ、スパイクニューラルネットワークからLIFダイナミクスを使用する。
予想だけでは何も与えない(+0.000 +/- 0.001)、ベータだけではモデストゲイン(+0.295 +/- 0.013)を与える(+0.741 +/- 0.002、+0.446 +/- 0.014)。
状態のない予測器は、前遷移トークンが分布的にドメイン内トークンと同一であるため、接近する遷移を検出することができない。
文字レベルのMoE LM(5シード)では、βルーティングは遷移段階のBPCを6.56 +/- 0.01 (Standard)から4.01 +/- 0.15 (beta-MoE)に還元する。
リファレンス実装(それぞれ200行):https://github.com/russellwmy/affinity-is-enough
関連論文リスト
- Lost in State Space: Probing Frozen Mamba Representations [0.5156484100374058]
マンバの繰り返し状態 h_t は、これまで見てきた全てのトークンの圧縮された要約である。
固定パッチ境界におけるトークンレベルの出力y_tを抽出すると、意味文要約を無償で取得する。
我々は,事前訓練したマンバ130Mの背骨から凍結文表現を抽出する4つの方法の比較を行った。
論文 参考訳(メタデータ) (2026-04-30T21:35:08Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair [0.0]
トランスフォーマーニューラルネットワークは、物理学に基づく問題にますます利用されている。
データ駆動型PDEサロゲートでは、異なる境界と初期条件からのトレーニングサンプルが不規則な損失とスパイク勾配を引き起こす可能性がある。
固定された第2モーメントベータ2がレイヤワイドな値に置き換えられるAdamスタイルの割引であるKourkoutas-Betaを紹介します。
論文 参考訳(メタデータ) (2025-08-18T15:16:54Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。