論文の概要: Geometric Asymmetry in MoE Specialization: Functional Decorrelation and Representational Overlap
- arxiv url: http://arxiv.org/abs/2605.16349v1
- Date: Fri, 08 May 2026 04:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.905763
- Title: Geometric Asymmetry in MoE Specialization: Functional Decorrelation and Representational Overlap
- Title(参考訳): MoEスペシャライゼーションにおける幾何学的非対称性--関数的デコレーションと表現的オーバーラップ
- Authors: Feilong Liu,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャはスパースルーティングによってスケーラブルなキャパシティを実現する。
本稿では,関数空間と表現空間の両方においてMoE層を解析するための統一Jacobian-PCA-Grassmannフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5414847001704249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures achieve scalable capacity through sparse routing, yet the geometric structure of expert specialization remains poorly understood. We introduce a unified Jacobian-PCA-Grassmann framework for analyzing MoE layers in both function space and representation space. Across pretrained MoE Transformers (Mistral, Qwen), we find a consistent structural asymmetry: experts exhibit strong functional decorrelation (consistently low, near-zero cross-expert Jacobian alignment) while their routed representations occupy distinct but partially overlapping subspaces. This indicates that functional decorrelation and representation overlap coexist rather than coincide in MoE specialization. Controlled routing experiments further indicate that routing sparsity appears to be a key factor shaping this geometry: top-k routing induces sharper functional separation and larger subspace divergence, whereas fully soft routing yields more entangled expert structure. Together, these results suggest a geometric interpretation in which MoE layers may be viewed as implementing locally decorrelated operators over overlapping submanifolds on a shared representation manifold, and provide a general diagnostic framework for studying conditional computation in modern Transformer architectures.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャはスパースルーティングによってスケーラブルな容量を実現するが、専門家の専門化の幾何学構造はあまり理解されていない。
本稿では,関数空間と表現空間の両方においてMoE層を解析するための統一Jacobian-PCA-Grassmannフレームワークを提案する。
事前訓練された MoE 変換器 (Mistral, Qwen) にまたがって、一貫した構造的非対称性が見つかる: 専門家は強い機能的デコリレーション(連続的に低く、ほぼゼロの横断的ヤコビアンアライメント)を示す一方で、それらの経路表現は、異なるが部分的に重複する部分空間を占有する。
このことは、機能的デコレーションと表現の重複が、MoEの特殊化と一致するというよりは、共存していることを示している。
トップkのルーティングは、よりシャープな機能的分離とより大きな部分空間の分散を誘導し、一方、完全なソフトなルーティングは、より絡み合った専門家構造をもたらす。
これらの結果は、共有表現多様体上の重なり合う部分多様体上の局所的非相関作用素としてMoE層を実装できる幾何学的解釈を示唆し、現代のトランスフォーマーアーキテクチャにおける条件計算の一般的な診断枠組みを提供する。
関連論文リスト
- GeoMamba: A Geometry-driven MambaVision Framework and Dataset for Fine-grained Optical-SAR Object Retrieval [54.741349848771144]
GeoMambaは光学SAR微細検索のための幾何学駆動フレームワークである。
GFIモジュールは、クロスモーダルな機能相互作用を強化し、構造的な事前を組み込む。
GeoMambaは既存の手法を上回り、全検索環境で63.3% mAPと77.0% Rank-1の精度を達成した。
論文 参考訳(メタデータ) (2026-05-19T12:08:09Z) - Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers [93.3976834364707]
本稿では,特徴写像のリレーショナル幾何における整合性を実現する構造的RePresentation AlignmentフレームワークであるsREPAを提案する。
モデルが事前訓練された特徴から全体的空間配置と構造的相関を内包するように促すことにより、sREPAはより高速でより安定した収束を達成する。
論文 参考訳(メタデータ) (2026-05-16T12:01:04Z) - Every Feedforward Neural Network Definable in an o-Minimal Structure Has Finite Sample Complexity [15.786915433105868]
フィードフォワードニューラルネットワークの幅広いクラスは、PACモデルで学習する(有限サンプルの複雑さを持つ)ことを示す。
その結果, 有限サンプルPAC学習能力は, 微分器ではなく, ベースラインとして再構成された。
論文 参考訳(メタデータ) (2026-05-08T01:26:25Z) - GRIFDIR: Graph Resolution-Invariant FEM Diffusion Models in Function Spaces over Irregular Domains [56.121725064621295]
関数空間におけるスコアベース拡散モデル(英語版)は関数値データをモデル化するための原則的なフレームワークを提供する。
しかし、実践的な実装はこれらの利点を完全に実現するのに苦労しています。
一般化された畳み込みカーネルを有限グラフカーネルとして表現する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-05-05T08:33:52Z) - Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - Geometry-Preserving Aggregation for Mixture-of-Experts Embedding Models [4.125187280299246]
Mixture-of-Experts (MoE) 埋め込みモデルは、重み付き線形和を用いて専門家の出力を合成し、埋め込み空間における線形部分空間構造を暗黙的に仮定する。
現代のMoE埋め込みモデルの幾何学的解析により、専門家の出力は密集ノルムと実質的な角分離によって特徴づけられる共有超球面多様体上にあることが明らかになった。
SBA(Spherical Barycentric Aggregation)は、ラジアル成分と角成分を分離し、既存のルーティング機構と完全に互換性を維持しながら超球面構造を維持する幾何学保存アグリゲーション演算子として導入された。
論文 参考訳(メタデータ) (2026-02-15T08:00:56Z) - Mixture-of-Experts as Soft Clustering: A Dual Jacobian-PCA Spectral Geometry Perspective [0.5414847001704249]
Mixture-of-Experts (MoE)アーキテクチャは、一般的に効率性と条件計算によって動機付けられている。
幾何レンズを用いてMoEを解析し、表現空間のソフトパーティショニングの形でルーティングを解釈し、重なり合う局所チャートに変換する。
論文 参考訳(メタデータ) (2026-01-09T23:07:14Z) - Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits [22.333229451408414]
トランスフォーマーベースの言語モデルは複雑で分散した振る舞いを示すが、内部計算はあまり理解されていない。
既存の解釈可能性法は、注意頭と多層パーセプトロン層(MLP)を識別不能単位として扱い、その内部で学習された機能的サブ構造の可能性を見越す。
よりきめ細かい視点を導入し、これらの成分を特異な方向に分解し、重畳された独立な計算を1つのヘッドまたはメカニスティック内で明らかにする。
論文 参考訳(メタデータ) (2025-11-25T12:59:15Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - The Neural Differential Manifold: An Architecture with Explicit Geometric Structure [8.201374511929538]
本稿では,その基本設計に幾何学的構造を明示的に組み込んだニューラルネットワークアーキテクチャであるニューラル微分マニフォールド(NDM)を紹介する。
我々は、より効率的な最適化の可能性、継続学習の強化、科学的発見と制御可能な生成モデルへの応用など、このアプローチの理論的利点を分析する。
論文 参考訳(メタデータ) (2025-10-29T02:24:27Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。