論文の概要: Mixture-of-Experts with Gradient Conflict-Driven Subspace Topology Pruning for Emergent Modularity
- arxiv url: http://arxiv.org/abs/2512.20291v1
- Date: Tue, 23 Dec 2025 12:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.856396
- Title: Mixture-of-Experts with Gradient Conflict-Driven Subspace Topology Pruning for Emergent Modularity
- Title(参考訳): 創発的モジュラリティのためのグラディエント・コンフリクト駆動型部分空間トポロジープルーニングを用いたMixture-of-Experts
- Authors: Yuxing Gan, Ziyu Lei,
- Abstract要約: CDSP-MoE (Conflict-Driven Subspace Pruning MoE) は、共有物理空間内の動的エキスパートインスタンス化のためのフレームワークである。
我々は,CDSP-MoEが,厳密なブラインド推論プロトコルの下でもセマンティック・スペシャライゼーションを維持しつつ,人間の定義したタスクラベルを使わずに,堅牢なコンテンツ駆動型ルーティングを実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures achieve parameter efficiency through conditional computation, yet contemporary designs suffer from two fundamental limitations: structural parameter isolation that causes catastrophic forgetting, and instruction-overfitting that degrades performance in instruction-free scenarios. We propose CDSP-MoE (Conflict-Driven Subspace Pruning MoE), a framework that addresses these issues through a paradigm shift from isolated expert containers to dynamic expert instantiation within a shared physical subspace. Grounded in the Universal Weight Subspace Hypothesis, CDSP-MoE maintains a super-complete parameter backbone where logical experts are carved out via learnable topology masks. Unlike prior work that uses gradient conflict for token reassignment or optimization surgery, we leverage it as a structural supervisory signal: a Lagged Gradient Game penalizes interfering connections in the shared manifold, enabling the topology to spontaneously prune conflicting pathways and evolve interpretable modular structures. Experimental results demonstrate that CDSP-MoE achieves robust content-driven routing without human-defined task labels, maintaining semantic specialization even under strict blind inference protocols where explicit instructions are absent. Code is available at: https://github.com/konodiodaaaaa1/Conflict-Driven-Subspace-Pruning-Mixture-of-Experts
- Abstract(参考訳): Mixture-of-Experts (MoE) アーキテクチャは条件付き計算によってパラメータ効率を達成するが、現代の設計には2つの基本的な制限がある。
我々は,CDSP-MoE (Conflict-Driven Subspace Pruning MoE) を提案する。これは,分離されたエキスパートコンテナから,共有された物理サブスペース内の動的エキスパートインスタンス化へのパラダイムシフトを通じて,これらの問題に対処するフレームワークである。
ユニバーサル・ウェイト・サブスペース仮説(Universal Weight Subspace hypothesis)において、CDSP-MoEは、学習可能なトポロジーマスクを通じて論理の専門家が切り出される超完全パラメータバックボーンを維持している。
Lagged Gradient Gameは、共有多様体内の干渉接続をペナライズし、トポロジが自然に矛盾する経路を創り出し、解釈可能なモジュラー構造を進化させる。
実験の結果、CDSP-MoEは、明示的な命令が存在しない厳密なブラインド推論プロトコルの下でも、人間の定義したタスクラベルを使わずに、堅牢なコンテンツ駆動ルーティングを実現することが示された。
https://github.com/konodiodaaaaa1/Conflict-Driven-Subspace-Pruning-of-Experts
関連論文リスト
- Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models [0.0]
「この論文は、圧縮は知性である」という前提に基づいている。」
それは新しいアーキテクチャ哲学を提唱している: 圧縮はルーティングである。
超長期のコンテキストを扱うために、VRAM圧縮の新たな視点を提供する。
論文 参考訳(メタデータ) (2025-12-18T09:02:03Z) - CADTrack: Learning Contextual Aggregation with Deformable Alignment for Robust RGBT Tracking [68.71826342377004]
RGB-Thermal (RGBT) トラッキングは、堅牢な全天候物体追跡のために可視および熱赤外モードを活用することを目的としている。
既存のRGBTトラッカーはモダリティの相違を解決するのに苦労している。
RGBT追跡のためのCADTrackと呼ばれる,変形可能なアライメントによるコンテキストアグリゲーション(Contextual Aggregation)を提案する。
論文 参考訳(メタデータ) (2025-11-22T08:10:02Z) - ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression [74.0893986012049]
UniMMADは、マルチモーダルおよびマルチクラスの異常検出のための統一されたフレームワークである。
UniMMADは、9つの異常検出データセット上で、3つのフィールド、12のモダリティ、66のクラスにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-30T08:29:12Z) - DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [24.202509006348862]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。
マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。
EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。
TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文 参考訳(メタデータ) (2025-08-03T13:11:52Z) - MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning [39.892628170627496]
クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。
プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。
本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
論文 参考訳(メタデータ) (2025-05-21T03:06:10Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - DEMix Layers: Disentangling Domains for Modular Language Modeling [92.57761975953453]
入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。
DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれがドメインに特化している。
実験によると、DEMixレイヤはテスト時間の複雑度を低減し、トレーニングの効率を向上し、オーバーヘッドの少ない迅速な適応を可能にする。
論文 参考訳(メタデータ) (2021-08-11T05:15:33Z) - Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers [72.38919601150175]
高オーバーラップオブジェクトをセグメント化するBilayer Convolutional Network (BCNet)を提案する。
BCNetはオクルージョンオブジェクト(Occluder)を検出し、ボトムGCN層は部分的にOccludedインスタンス(Occludee)を推論する
論文 参考訳(メタデータ) (2021-03-23T06:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。