論文の概要: Boundary Mass and the Soft-to-Hard Limit in Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2605.02124v1
- Date: Mon, 04 May 2026 01:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.094252
- Title: Boundary Mass and the Soft-to-Hard Limit in Mixture-of-Experts
- Title(参考訳): 混合実験における境界質量とソフト・ハード限界
- Authors: Reza Rastegar,
- Abstract要約: 人口レベルでの特異点を2乗損失MOEレグレッションとして検討した。
中心となる物体はウンバウンダリー質量であり、すなわち、上位2つのルータのスコアが小さなマージンで分離される確率である。
ゼロ温度制限は、完全な入力空間ではなく、ルーティングインターフェースの周りの薄い幾何学的層によって制御されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Softmax-routed mixture-of-experts models approach hard routing as the temperature tends to zero, but this limit is singular near routing ties. This paper studies that singularity at the population level for squared-loss MoE regression. The central object is the \emph{boundary mass}, namely the probability that the top two router scores are separated by only a small margin. Under smoothness and transversality assumptions on the router and input law, we prove coarea/tube estimates showing that this mass is linear in the slab width, with leading constant given by a surface integral over the routing interface in the binary case. These estimates yield quantitative soft-to-hard risk bounds and, under compactness and uniform margin control, $Γ$-convergence of the soft objectives to the hard-routing objective. The main conclusion is that the zero-temperature limit is controlled by a thin geometric layer around routing interfaces, not by the full input space. We then use this geometric core in two more model-dependent directions. In a teacher--student setting, we prove a conditional landscape-transfer principle showing that, when the profiled hard-routing problem has favorable identifiability and curvature and the relevant derivatives transfer at boundary-layer scale, small-temperature soft routing inherits approximate teacher recovery and strict-saddle behavior away from teacher-equivalent partitions. We also give a reduced two-expert Gaussian calculation that illustrates a local symmetry-breaking mechanism aligned with the teacher separator.
- Abstract(参考訳): 温度がゼロになる傾向があるため、ソフトマックスの混合実験はハードルーティングにアプローチするが、この制限はルーティング結合に近い特異なものである。
本稿では,2乗損失MOE回帰の集団レベルでの特異性について検討する。
中心となる対象は \emph{boundary mass} であり、すなわち、上位2つのルータのスコアが小さなマージンでのみ分離される確率である。
ルータと入力法則の滑らかさと横方向の仮定の下で、この質量がスラブ幅で線形であることを示し、二乗の場合、ルーティングインターフェース上の曲面積分によって導出定数が与えられる。
これらの推定は、定量的なソフトからハードへのリスク境界を導き、コンパクト性と均一なマージン制御の下では、ソフト目標をハードルーティング目標に$$$収束する。
主な結論は、ゼロ温度制限は、完全な入力空間ではなく、ルーティングインターフェースの周りの薄い幾何学的層によって制御されるということである。
次に、この幾何学的コアを2つのモデル依存の方向に使います。
教師-学生の環境では、プロファイル付きハードルーティング問題に有意な識別性と曲率があり、関連するデリバティブが境界層スケールで伝達される場合、低温ソフトルーティングが教師-等価パーティションから近似的な教師回復と厳密なサドル動作を継承することを示す条件付きランドスケープ-トランスファー原理を実証する。
また,教師セパレータに整合した局所対称性破砕機構を示す2慣性ガウス計算も行う。
関連論文リスト
- The Geometric Cost of Normalization: Affine Bounds on the Bayesian Complexity of Neural Networks [0.0]
重み行列の局所学習係数(LLC)を正確に$m/2$とすることで、LayerNormの平均中心ステップを線形超平面に収束させることを証明した。
さらに、Softmaxの単純なデータに"smuggled bias"を導入し、明示的な下流バイアスと組み合わせると、同じ$m/2$ LLCのドロップを起動することを示す。
論文 参考訳(メタデータ) (2026-03-28T22:15:45Z) - Riemannian Flow Matching for Disentangled Graph Domain Adaptation [51.98961391065951]
グラフドメイン適応(GDA)は典型的には、ユークリッド空間におけるグラフ埋め込みの整列に逆学習を使用する。
DisRFMは、埋め込みとフローベースのトランスポートを統一する幾何学的なGDAフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T11:05:35Z) - Exact Constraint Enforcement in Physics-Informed Extreme Learning Machines using Null-Space Projection Framework [0.0]
この研究は、係数空間における代数的射影による厳密な制約執行を達成するために、Null-Space Projected PIELMを導入している。
NP-PIELM は許容係数多様体の幾何学的構造を利用して、境界作用素の零空間を分解することを認識する。
これにより、単発トレーニング効率を維持しながらペナルティ係数、双対変数、問題固有の構成を排除できる。
論文 参考訳(メタデータ) (2026-01-16T05:18:56Z) - Optimal Boundary Control of Diffusion on Graphs via Linear Programming [2.064612766965483]
幾何ネットワーク上での定常拡散とフラックス最適化のためのフレームワークを提案する。
境界ポテンシャルは、線形ネットワークラプラシアンに従って内部フラックスを駆動する制御として機能する。
この解析はミンコフスキー-ワイル分解、ホフマン境界、および現代的なネットワークベースの拡散モデリングによる線形プログラミングの基本定理などの古典的な結果と結合する。
論文 参考訳(メタデータ) (2025-11-05T02:41:07Z) - Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning [1.4050802766699084]
本稿では,ディープラーニング(DL)ネットワークにおける教師あり学習のシナリオについて考察する。
DLネットワークの出力層におけるユークリッド計量に対する勾配流を選択する。
論文 参考訳(メタデータ) (2023-11-27T02:12:02Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Zero Pixel Directional Boundary by Vector Transform [77.63061686394038]
我々は境界を1次元曲面として再解釈し、1対1のベクトル変換関数を定式化し、クラス不均衡問題を完全に回避する境界予測の訓練を可能にする。
我々の問題定式化は、境界の方向推定だけでなく、よりリッチなコンテキスト情報もたらし、もし望めば、訓練時にもゼロピクセルの薄い境界が利用可能となる。
論文 参考訳(メタデータ) (2022-03-16T17:55:31Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable
Approach for Continuous Markov Random Fields [53.31927549039624]
断片的な離散化は既存の離散化問題と矛盾しないことを示す。
この理論を2つの画像のマッチング問題に適用する。
論文 参考訳(メタデータ) (2021-07-13T12:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。