論文の概要: A Minimal Bifurcation Model of Load Imbalance in a Softmax Mixture-of-Experts Router
- arxiv url: http://arxiv.org/abs/2605.29121v1
- Date: Wed, 27 May 2026 21:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.465807
- Title: A Minimal Bifurcation Model of Load Imbalance in a Softmax Mixture-of-Experts Router
- Title(参考訳): ソフトマックス混合ルータにおける負荷不均衡の最小分岐モデル
- Authors: O. M. Kiselev,
- Abstract要約: 本論文では,2段混合実験層に対する適応型ソフトマックスルーティングの最小限の動的モデルを提案する。
我々は、分岐集合とカスプカタストロフィの局所正規形に対する正確なパラメトリック方程式を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a minimal dynamical model of adaptive softmax routing for a two-expert Mixture-of-Experts (MoE) layer. The model is obtained as a mean-field limit of a discrete reinforcement rule: the selected expert receives a small score increment, while all scores undergo regularizing decay. In the symmetric case the limiting system has a supercritical pitchfork bifurcation: for weak feedback there is a unique stable balanced state, whereas above a critical feedback strength two stable asymmetric states appear. When an external asymmetry is added, the pitchfork unfolds into a pair of fold bifurcations forming a cusp in the control-parameter plane. We derive exact parametric equations for the bifurcation set and the local normal form of the cusp catastrophe. Numerical experiments connect this picture to empirical expert load, a small trainable MoE model, hard top-1 PyTorch routing, and a small classification experiment on digits. The results provide a controlled low-dimensional mechanism for abrupt transitions to load imbalance in adaptive MoE routers.
- Abstract(参考訳): そこで本稿では,MoE(Mixture-of-Experts)層に対する適応型ソフトマックスルーティングの最小限の動的モデルを提案する。
選択された専門家は小さなスコアインクリメントを受け、全てのスコアは正規化崩壊する。
対称性の場合、制限系は超臨界ピッチフォーク分岐を持ち、弱いフィードバックにはユニークな安定な平衡状態が存在するが、臨界フィードバック強度以上の2つの安定な非対称状態が現れる。
外部の非対称性が加わったとき、ピッチフォークは、制御パラメータ平面においてカスプを形成する一対の折りたたみ分岐に展開する。
我々は、分岐集合とカスプカタストロフィの局所正規形に対する正確なパラメトリック方程式を導出する。
数値実験は、この図を経験的専門家負荷、小さなトレーニング可能なMoEモデル、ハードトップ-1 PyTorchルーティング、および桁上の小さな分類実験に結びつける。
その結果,適応型MoEルータにおける負荷不均衡への急激な遷移を制御した低次元機構が得られた。
関連論文リスト
- Extra-Merge: Tracing the Rank-1 Subspace of Model Merging in Language Model Pre-Training [56.323119575322146]
Extra-Mergeは、GPT-2およびLLaMAファミリーにわたる実験において、標準のマージベースラインを一貫して上回っている。
Pythia-12B下流のタスクに対して一貫したゼロショット精度のゲインを与え、Muon citepjordan2024muonに効果的に一般化する。
論文 参考訳(メタデータ) (2026-05-26T02:48:34Z) - $φ$-Balancing for Mixture-of-Experts Training [20.061328126956028]
Mixture-of-Experts (MoE)モデルは、そのスケーラビリティを完全に実現するために、バランスのとれた専門家の利用に依存します。
我々は,厳密な凸性,対称性,および予測されるルーティング分布の微分ポテンシャルを最小化することにより,集団レベルの専門家バランスを直接ターゲットとする原則的フレームワークである$-balancingを提案する。
論文 参考訳(メタデータ) (2026-05-14T20:39:28Z) - Neural Control: Adjoint Learning Through Equilibrium Constraints [7.41073008855977]
トラジェクトリに依存した,メモリ効率のよいプロキシ勾配を演算する境界制御フレームワークを提案する。
本研究では,SPSAやCEMなどの勾配のないベースラインの性能向上を示す。
論文 参考訳(メタデータ) (2026-05-05T02:19:37Z) - Boundary Mass and the Soft-to-Hard Limit in Mixture-of-Experts [0.0]
人口レベルでの特異点を2乗損失MOEレグレッションとして検討した。
中心となる物体はウンバウンダリー質量であり、すなわち、上位2つのルータのスコアが小さなマージンで分離される確率である。
ゼロ温度制限は、完全な入力空間ではなく、ルーティングインターフェースの周りの薄い幾何学的層によって制御されることを示す。
論文 参考訳(メタデータ) (2026-05-04T01:07:21Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Lane-Frame Quantum Multimodal Driving Forecasts for the Trajectory of Autonomous Vehicles [6.137648436139678]
自動運転のトレイ予測は、厳密な計算とレイテンシの制約の下で、正確でマルチモーダルなキャリブレーションされた予測を提供する必要がある。
本稿では,エゴ中心のレーン配向フレームで動作することにより,量子帰納バイアスを路面構造に整合させる,コンパクトなハイブリッド量子アーキテクチャを提案する。
Open Motionデータセットでは、SI1.94mのminADEとSI3.56mのminFDEが達成され、ミス率と強いリコールでキネマティックベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-21T07:00:07Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Fast Scrambling in the Hyperbolic Ising Model [45.9982965995401]
本稿では,AdS2を背景とした混合フィールドIsingモデルであるHyperbolic Isingモデルにおける多体カオスとスクランブルについて検討する。
局所的なサイトに依存した近接相互作用のみを持つこのモデルは、最大カオスであり、高速スクランブラーとして分類でき、あるパラメータ集合のカオスに縛られたマルダセナ・シェンカー・スタンフォード(MSS)を飽和させる。
論文 参考訳(メタデータ) (2025-02-28T19:00:07Z) - CWF: Consolidating Weak Features in High-quality Mesh Simplification [50.634070540791555]
これらの要件をすべて同時に検討するスムーズな機能を提案する。
この官能基は、通常の異方性項と、セトロイド型ボロノイテッセルレーション(CVT)エネルギー項を含む。
論文 参考訳(メタデータ) (2024-04-24T05:37:17Z) - Variational quantum simulation of critical Ising model with symmetry
averaging [0.2578242050187029]
本研究では, ギャップレスシステムの基底状態に対する可変アンサッツとして, 深層マルチスケールエンタングルメント再正規化回路の利用について検討する。
DMERAは標準的なQAOAスタイルのアンサッツを強く上回り、DMERAを用いて近似した相関関数の体系的誤差の主な原因は、逆場イジングモデルの変換対称性とクラマース・ワニエ対称性の破れである。
論文 参考訳(メタデータ) (2022-10-26T21:37:14Z) - Noise-resilient Edge Modes on a Chain of Superconducting Qubits [103.93329374521808]
量子系の遺伝対称性は、それ以外は脆弱な状態を保護することができる。
非局所マヨラナエッジモード(MEM)を$mathbbZ$パリティ対称性で表す一次元キックドイジングモデルを実装した。
MEMは、予熱機構により特定の対称性を破るノイズに対して弾力性があることが判明した。
論文 参考訳(メタデータ) (2022-04-24T22:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。