論文の概要: Mixture-of-Experts as Soft Clustering: A Dual Jacobian-PCA Spectral Geometry Perspective
- arxiv url: http://arxiv.org/abs/2601.11616v1
- Date: Fri, 09 Jan 2026 23:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.796525
- Title: Mixture-of-Experts as Soft Clustering: A Dual Jacobian-PCA Spectral Geometry Perspective
- Title(参考訳): ソフトクラスタリングとしてのエクササイズ:双対ジャコビアン-PCA分光幾何学的視点
- Authors: Feilong Liu,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、一般的に効率性と条件計算によって動機付けられている。
幾何レンズを用いてMoEを解析し、表現空間のソフトパーティショニングの形でルーティングを解釈し、重なり合う局所チャートに変換する。
- 参考スコア(独自算出の注目度): 0.5414847001704249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures are commonly motivated by efficiency and conditional computation, but their effect on the geometry of learned functions and representations remains poorly characterized. In this work, we study MoEs through a geometric lens, interpreting routing as a form of soft partitioning of the representation space into overlapping local charts. We introduce a Dual Jacobian-PCA Spectral Geometry probe. It analyzes local function geometry via Jacobian singular-value spectra and representation geometry via weighted PCA of routed hidden states. Using a controlled MLP-MoE setting that permits exact Jacobian computation, we compare dense, Top-k, and fully-soft routing architectures under matched capacity. Across random seeds, we observe that MoE routing consistently reduces local sensitivity, with expert-local Jacobians exhibiting smaller leading singular values and faster spectral decay than dense baselines. At the same time, weighted PCA reveals that expert-local representations distribute variance across a larger number of principal directions, indicating higher effective rank under identical input distributions. We further find that average expert Jacobians are nearly orthogonal, suggesting a decomposition of the transformation into low-overlap expert-specific subspaces rather than scaled variants of a shared map. We analyze how routing sharpness modulates these effects, showing that Top-k routing produces lower-rank, more concentrated expert-local structure, while fully-soft routing yields broader, higher-rank representations. Together, these results support a geometric interpretation of MoEs as soft partitionings of function space that flatten local curvature while redistributing representation variance.
- Abstract(参考訳): Mixture-of-Experts (MoE) アーキテクチャは、一般に効率と条件計算によって動機づけられるが、それらの学習関数や表現の幾何学に対する影響は、いまだに貧弱なままである。
本研究では,幾何レンズを用いてMoEを解析し,表現空間のソフトパーティショニングを局所チャートに重なり合う形で解釈する。
本稿では、双対ジャコビアン-PCA分光幾何プローブを提案する。
ジャコビアン特異値スペクトルによる局所関数幾何学と、経路隠れ状態の重み付きPCAによる表現幾何学を解析する。
ジャコビアン計算を正確に行うための制御されたMLP-MoE設定を用いて、高密度なTop-kと完全ソフトなルーティングアーキテクチャを一致容量で比較する。
ランダム種全体では,MoE経路は局所感度を一定に低下させ,専門家・局所ヤコビアンは高密度基線よりも小さい鉛直特異値と高速なスペクトル崩壊を示す。
同時に、重み付きPCAは、専門家局所表現が多数の主方向にわたって分散し、同一の入力分布よりも高い有効ランクを示すことを示した。
さらに、平均的専門家ヤコビアンはほぼ直交的であり、共有写像のスケールされた不変量ではなく、低オーバーラップの専門家特化部分空間への変換の分解を示唆する。
我々は、ルーティングのシャープネスがこれらの効果をどのように変調するかを分析し、Top-kルーティングがより低ランクでより集中的な専門家局所構造を生成するのに対し、完全ソフトなルーティングはより広範で高ランクな表現をもたらすことを示す。
これらの結果は、表現分散を再分配しながら局所曲率を平坦にする関数空間のソフトパーティショニングとして、MoEsの幾何学的解釈を支持する。
関連論文リスト
- MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Learning Overspecified Gaussian Mixtures Exponentially Fast with the EM Algorithm [5.625796693054093]
過特定ガウス混合モデルに適用した場合のEMアルゴリズムの収束特性について検討する。
集団EMアルゴリズムはクルバック・リーブラー距離(KL)において指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2025-06-13T14:57:57Z) - Learning Mixtures of Experts with EM: A Mirror Descent Perspective [28.48469221248906]
古典的なMixtures of Experts(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた個別の"エキスパート"モデルである。
我々は,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの理論的保証について検討する。
論文 参考訳(メタデータ) (2024-11-09T03:44:09Z) - IsUMap: Manifold Learning and Data Visualization leveraging Vietoris-Rips filtrations [0.08796261172196743]
局所的に歪んだ距離空間に対する距離表現の体系的かつ詳細な構成を示す。
提案手法は,非一様データ分布と複雑な局所的ジオメトリの調整により,既存の手法の制約に対処する。
論文 参考訳(メタデータ) (2024-07-25T07:46:30Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo
Matching Networks [3.7384509727711923]
LSP(Local similarity Pattern)という,深層ステレオマッチングネットワークのためのペア機能を導入する。
隣接する関係を明確に明らかにすることで、LSPはより識別的な特徴記述を支援するために活用できる豊富な構造情報を含んでいる。
第2に,動的自己組み換え改良戦略を設計し,コスト分布と分散マップにそれぞれ適用する。
論文 参考訳(メタデータ) (2021-12-02T06:52:54Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。