論文の概要: Towards Adaptive Continual Model Merging via Manifold-Aware Expert Evolution
- arxiv url: http://arxiv.org/abs/2604.22464v1
- Date: Fri, 24 Apr 2026 11:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.439205
- Title: Towards Adaptive Continual Model Merging via Manifold-Aware Expert Evolution
- Title(参考訳): マニフォールド・アウェア・エキスパート進化による適応的連続モデル統合に向けて
- Authors: Haiyun Qiu, Xingyu Wu, Kay Chen Tan,
- Abstract要約: MADE-ITは、多様体幾何学における本質的な専門家表現を基礎にして、専門家の管理と活性化をオーケストレーションする。
実験により、MADE-ITは、長い水平およびシャッフルされたタスクシーケンスの精度と堅牢性において、強いベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 33.44708543696699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Model Merging (CMM) sequentially integrates task-specific models into a unified architecture without intensive retraining. However, existing CMM methods are hindered by a fundamental saturation-redundancy dilemma: backbone-centric approaches face parameter saturation and representation interference within fixed capacities, whereas Mixture-of-Experts (MoE) variants resort to indiscriminate expansion, incurring expert redundancy and a routing bottleneck reliant on additional data-driven optimization. To resolve these challenges, we propose MADE-IT (Manifold-Aware Dynamic Expert Evolution and Implicit rouTing), an adaptive CMM method that orchestrates expert management and activation by grounding intrinsic expert representations in manifold geometry. We introduce a projection-based subspace affinity metric coupled with a distribution-aware adaptive threshold mechanism to guide autonomous expert evolution, harmonizing diversity with architectural parsimony. Furthermore, to bypass parameterized gating networks, we design a data-free and training-free implicit routing mechanism that activates experts via feature-subspace alignment. Extensive experiments demonstrate that MADE-IT consistently outperforms strong baselines in accuracy and robustness across long-horizon and shuffled task sequences, while significantly pruning redundant experts, particularly within generic modules and early layers.
- Abstract(参考訳): CMM(Continuous Model Merging)は、タスク固有のモデルを集中的な再トレーニングなしに統合されたアーキテクチャに順次統合する。
一方、Mixture-of-Experts (MoE) 変種は、非差別的な拡張、専門家の冗長性、および追加のデータ駆動最適化に依存するルーティングのボトルネックに頼っている。
これらの課題を解決するために,多様体幾何学における本質的な専門家表現を基礎として専門家管理とアクティベーションを協調する適応型CMM手法であるMADE-ITを提案する。
本稿では,プロジェクションに基づく部分空間親和性測定と分布認識適応しきい値機構を組み合わせることで,自律的専門家の進化を誘導し,多様性とアーキテクチャのパーシモニーを調和させる手法を提案する。
さらに、パラメータ化ゲーティングネットワークをバイパスするために、特徴空間アライメントを介して専門家を活性化するデータフリーでトレーニング不要な暗黙的ルーティング機構を設計する。
大規模な実験により、MADE-ITは長い水平およびシャッフルされたタスクシーケンスにおいて、高いベースラインと堅牢性を一貫して上回りながら、特にジェネリックモジュールや初期層において、冗長な専門家を著しく引き抜いていることが示されている。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures [2.538209532048867]
エキスパートの混在(MoE)アーキテクチャは、ニューラルネットワークの効率的なスケーリングを可能にするが、専門家の崩壊に苦しむ。
構造的モジュラリティを強制するために、ルーティング多様体に幾何的制約を課すスペクトル規則化エキスパート混合(SR-MoE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T12:59:37Z) - How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts [30.125087273625123]
適応型エキスパート拡張と動的ルーティングのためのセマンティックアウェアなMoEフレームワークを提案する。
MASSは、コストパフォーマンストレードオフと特にセマティック特殊化の改善の間の最適なバランスの点に収束する。
論文 参考訳(メタデータ) (2025-12-21T05:37:42Z) - HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation [72.69742127579508]
最近の統一モデルでは、理解の専門家(LLMなど)と生成の専門家(拡散モデルなど)を統合している。
本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。
複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示している。
論文 参考訳(メタデータ) (2025-11-25T17:23:38Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Dynamic Adaptive Shared Experts with Grouped Multi-Head Attention Mixture of Experts [10.204413386807564]
本稿では,DASG-MoE(Dynamic Adaptive Shared Expert and Grouped Multi-Head Attention Hybrid Model)を提案する。
まず,グループ型マルチヘッドアテンション(GMHA)機構を用いて,長い列の計算複雑性を効果的に低減する。
第2に、浅瀬の専門家が軽量な計算を用いて低次元の特徴に迅速に対応できるDual-Scale Shared Expert Structure (DSSE)を設計する。
第3に,機能複雑性とタスク要求に基づいて,専門家レベルを動的に選択する階層型適応動的ルーティング(ADR)機構を提案する。
論文 参考訳(メタデータ) (2025-09-05T02:49:15Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Single Domain Generalization with Model-aware Parametric Batch-wise Mixup [22.709796153794507]
単一ドメインの一般化は、マシンラーニングの分野において、依然として深刻な課題である。
本稿では,モデル認識型パラメトリックバッチ・ワイド・ミックスアップ(Parametric Batch-wise Mixup)と呼ばれる新しいデータ拡張手法を提案する。
機能間相関を利用することで、パラメータ化されたミックスアップジェネレータは、複数のインスタンスにまたがる機能の組み合わせにおいて、さらなる汎用性を導入する。
論文 参考訳(メタデータ) (2025-02-22T03:45:18Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [24.28646376876676]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。