論文の概要: Geometric Metrics for MoE Specialization: From Fisher Information to Early Failure Detection
- arxiv url: http://arxiv.org/abs/2604.14500v1
- Date: Thu, 16 Apr 2026 00:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.657046
- Title: Geometric Metrics for MoE Specialization: From Fisher Information to Early Failure Detection
- Title(参考訳): MoEスペシャライゼーションのための幾何学的メトリクス:漁業情報から早期故障検出まで
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 本稿では,MoE動的特殊化の最初の厳密な特徴を提供する情報幾何学的フレームワークを提案する。
我々の重要な洞察は、フィッシャー情報量計を備えた確率単純度に基づいて、専門家のルーティング分布が進化することである。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expert specialization is fundamental to Mixture-of-Experts (MoE) model success, yet existing metrics (cosine similarity, routing entropy) lack theoretical grounding and yield inconsistent conclusions under reparameterization. We present an information-geometric framework providing the first rigorous characterization of MoE specialization dynamics. Our key insight is that expert routing distributions evolve on the probability simplex equipped with the Fisher information metric, enabling formal analysis via Riemannian geometry. We prove that standard heuristic metrics violate parameterization invariance (Theorem 1), establish that specialization corresponds to geodesic flow with quantified approximation bounds (Theorem 2), and derive a failure predictor with theoretical threshold justification (Theorem 3). The framework introduces two principled metrics: Fisher Specialization Index (FSI) achieving r=0.91+/-0.02 correlation with downstream performance, and Fisher Heterogeneity Score (FHS) predicting training failure at 10% completion with AUC=0.89+/-0.03 -- outperforming validation-loss-based early stopping by 23% while requiring 40x fewer compute cycles. We validate intervention protocols achieving 87% recovery rate when FHS>1 is detected. Comprehensive experiments across language modeling (WikiText-103, C4), vision MoE (ImageNet), and scaling studies (8-64 experts, 125M-2.7B parameters) validate our theoretical predictions.
- Abstract(参考訳): 専門家の専門化は、Mixture-of-Experts(MoE)モデルの成功の基礎であるが、既存のメトリクス(コサイン類似性、ルーティングエントロピー)には理論的根拠がなく、再パラメータ化の下で矛盾した結論をもたらす。
本稿では,MoE特殊化ダイナミクスの厳密な特徴付けを初めて提供する情報幾何学的フレームワークを提案する。
我々の重要な洞察は、フィッシャー情報計量を備えた確率単純度に基づいて、専門家のルーティング分布が進化し、リーマン幾何学による形式解析が可能となることである。
標準ヒューリスティック測度がパラメータ化不変性に反すること(定理1)、特殊化が定量化された近似境界を持つ測地流に対応すること(定理2)、そして理論的なしきい値の正当性を持つ故障予測器を導出すること(定理3)、を証明した。
Fisher Specialization Index (FSI) と Fisher Heterogeneity Score (FHS) は、AUC=0.89+/-0.03で10%の完了でトレーニング失敗を予測する。
FHS>1が検出された際に87%の回復率を達成できる介入プロトコルを検証する。
言語モデリング(WikiText-103, C4)、ビジョンMoE(ImageNet)、スケーリング研究(8-64の専門家、125M-2.7Bパラメータ)の総合的な実験は、我々の理論予測を検証する。
関連論文リスト
- Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations [0.0]
SymLang (Symmetry-Constrained Language-Guided equation discovery) は3つの異なるアイデアをまとめる統一フレームワークである。
133の力学系において、SymLangは観測ノイズの10%以下で83.7%の正確な構造回復率を達成する。
すべての試験された体制において、この枠組みは構造的縮退を正しく識別し、自信ある1つの方程式を返すのではなく、明確に報告する。
論文 参考訳(メタデータ) (2026-03-06T20:42:36Z) - Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks [0.0]
凸共役双対性に基づく共役学習理論フレームワークを開発し,この学習性特性を特徴付ける。
我々は,ミニバッチ降下(SGD)による深層ニューラルネットワーク(DNN)のトレーニングが,経験的リスクのグローバルな最適化を実現することを実証した。
条件付き一般化エントロピー測度に基づく一般化誤差に関する決定論的および確率的境界を導出する。
論文 参考訳(メタデータ) (2026-02-18T04:26:55Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity [49.809923981964715]
凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。
本研究は, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。
また、対応するミニマックス下限を定め、これらのレートがミニマックス最適であることを保証する。
論文 参考訳(メタデータ) (2026-01-31T23:45:50Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。