論文の概要: Geometric Regularization in Mixture-of-Experts: The Disconnect Between Weights and Activations
- arxiv url: http://arxiv.org/abs/2601.00457v1
- Date: Thu, 01 Jan 2026 19:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.458889
- Title: Geometric Regularization in Mixture-of-Experts: The Disconnect Between Weights and Activations
- Title(参考訳): エクササイズ・オブ・エクササイズにおける幾何学的正則化:ウェイトとアクティベーションの切り離し
- Authors: Hyunjun Kim,
- Abstract要約: Mixture-of-Experts (MoE)モデルはスパースアクティベーションによって効率を達成する。
重み空間の正規化はその幾何学的目標も確実に性能を改善することも達成しない。
重量空間の正規化はMoEの多様性には適さない。
- 参考スコア(独自算出の注目度): 12.969042037563971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models achieve efficiency through sparse activation, but the role of geometric regularization in expert specialization remains unclear. We apply orthogonality loss to enforce expert diversity and find it fails on multiple fronts: it does not reduce weight-space overlap (MSO actually increases by up to 114%), activation-space overlap remains high (~0.6) regardless of regularization, and effects on performance are inconsistent -- marginal improvement on WikiText-103 (-0.9%), slight degradation on TinyStories (+0.9%), and highly variable results on PTB (std > 1.0). Our analysis across 7 regularization strengths reveals no significant correlation (r = -0.293, p = 0.523) between weight and activation orthogonality. These findings demonstrate that weight-space regularization neither achieves its geometric goal nor reliably improves performance, making it unsuitable for MoE diversity.
- Abstract(参考訳): 混合専門家モデル(MoE)はスパースアクティベーションによって効率を向上するが、専門家の専門化における幾何正規化の役割はいまだ不明である。
我々は、専門家の多様性を強制し、複数の面で失敗する直交性損失を適用し、重量空間オーバーラップを減らさない(MSOは、実際には114%まで増加する)、活性化空間オーバーラップは、正規化にかかわらず高い(~0.6)、そしてパフォーマンスへの影響は矛盾する -- WikiText-103の限界改善(-0.9%)、TinyStoriesのわずかな劣化(+0.9%)、TBの高変動結果(std > 1.0)である。
7つの正則化強度で解析したところ、重みと活性化直交の間に有意な相関(r = -0.293, p = 0.523)は見られなかった。
これらの結果から,重量空間の正規化はその幾何学的目標を達成するにも,性能を確実に向上させるにも至らず,MoEの多様性に不適であることが示唆された。
関連論文リスト
- A Further Comparison of TD-DMRG and ML-MCTDH for Nonadiabatic Dynamics of Exciton Dissociation [2.0480965608306305]
最近の研究では、exitonconfigurationの計算で最大60%の相違が報告されている。
ベンチマークP3HT:PCBMヘテロ接合モデルを再検討することにより、観察された相違は主に結合寸法の不足から生じることを示す。
その結果,結合次元が適切にスケールされている場合,両手法が数値的に正確な解に収束することが確認できた。
論文 参考訳(メタデータ) (2025-08-30T10:53:51Z) - Advancing Constrained Monotonic Neural Networks: Achieving Universal Approximation Beyond Bounded Activations [4.659033572014701]
凸モノトン活性化と非正の制約重みが普遍近似器として有効であることを示す。
重みの符号に応じてネットワークの活性化を調整できる別の定式化を提案する。
論文 参考訳(メタデータ) (2025-05-05T10:18:48Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral
Mapping for Single-channel Speech Enhancement [20.823177372464414]
ほとんどの音声強調(SE)モデルは、ポイント推定を学習し、学習過程における不確実性推定を利用しない。
本研究では,多変量ガウス陰性ログ類似度 (NLL) を最小化することにより,SE性能を余分なコストで向上させることにより,ヘテロスセダスティック不確実性をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-11-16T02:29:05Z) - Simultaneous Transport Evolution for Minimax Equilibria on Measures [48.82838283786807]
最小限の最適化問題は、敵対的学習や生成的モデリングなど、いくつかの重要な機械学習設定で発生する。
この研究では、代わりに混合平衡を見つけることに集中し、関連する持ち上げ問題を確率測度の空間で考察する。
エントロピー正則化を加えることで、我々の主な成果はグローバル均衡へのグローバル収束を確立する。
論文 参考訳(メタデータ) (2022-02-14T02:23:16Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。