論文の概要: ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation
- arxiv url: http://arxiv.org/abs/2603.02945v1
- Date: Tue, 03 Mar 2026 12:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.798017
- Title: ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation
- Title(参考訳): ACE-Merging:適応的共分散推定を用いたデータフリーモデルマージ
- Authors: Bo Xu, Haotian Wu, Hehai Lin, Weiquan Huang, Beier Zhu, Yao Shu, Chengwei Qin,
- Abstract要約: モデルマージは、複数のタスク固有のエキスパートモデルと1つのモデルを組み合わせることを目的としている。
専門家間の干渉、特に異なる目的でトレーニングされた場合、しばしばパフォーマンスが著しく低下する。
acemは、タスク間干渉を効果的に緩和する適応的共分散推定フレームワークである。
- 参考スコア(独自算出の注目度): 34.173549610331385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging aims to combine multiple task-specific expert models into a single model while preserving generalization across diverse tasks. However, interference among experts, especially when they are trained on different objectives, often leads to significant performance degradation. Despite recent progress, resolving this interference without data access, retraining, or architectural modification remains a fundamental challenge. This paper provides a theoretical analysis demonstrating that the input covariance of each task, which is a key factor for optimal merging, can be implicitly estimated from the parameter differences of its fine-tuned model, even in a fully data-free setting. Building on this insight, we introduce \acem, an Adaptive Covariance Estimation framework that effectively mitigates inter-task interference. Our approach features a principled, closed-form solution that contrasts with prior iterative or heuristic methods. Extensive experiments on both vision and language benchmarks demonstrate that \acem sets a new state-of-the-art among data-free methods. It consistently outperforms existing baselines; for example, \acem achieves an average absolute improvement of 4\% over the previous methods across seven tasks on GPT-2. Owing to its efficient closed-form formulation, \acem delivers superior performance with a modest computational cost, providing a practical and theoretically grounded solution for model merging.
- Abstract(参考訳): モデルマージは、複数のタスク固有のエキスパートモデルを1つのモデルに統合し、多様なタスクをまたいだ一般化を保存することを目的としている。
しかし、専門家間の干渉、特に異なる目的で訓練された場合、しばしばパフォーマンスが著しく低下する。
最近の進歩にもかかわらず、データアクセス、再トレーニング、アーキテクチャ修正なしにこの干渉を解決することは、依然として根本的な課題である。
本稿では,各タスクの入力共分散が,完全データフリーの設定においても,その微調整モデルのパラメータ差から暗黙的に推定できることを理論的に示す。
この知見に基づいて,タスク間干渉を効果的に緩和する適応共分散推定フレームワークであるShaacemを紹介する。
我々の手法は、事前反復法やヒューリスティック法とは対照的な、原理化された閉形式解を特徴とする。
ビジョンと言語ベンチマークの広範な実験により、Shaacemがデータフリーメソッドに新しい最先端を設定できることが示されている。
例えば、 \acem は GPT-2 上の 7 つのタスクにまたがる以前のメソッドよりも 4 % の平均的な絶対的な改善を達成している。
効率的なクローズドフォームの定式化により、シャアセムは控えめな計算コストで優れた性能を提供し、モデルマージの実用的で理論的に基礎付けられたソリューションを提供する。
関連論文リスト
- Understanding Model Merging: A Unified Generalization Framework for Heterogeneous Experts [36.26786113564521]
モデルマージは、複数の微調整されたモデルの機能を単一のモデルに効率的に集約する。
経験的成功にもかかわらず、不均一な微調整ハイパーパラメータの下での有効性の統一理論はいまだに欠落している。
我々は$L$-Stability理論を用いて、合併されたモデル $boldsymbolx_avg$ の一般化を分析する。
論文 参考訳(メタデータ) (2026-01-29T13:22:06Z) - Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration [14.503741632243646]
マルチタスクモデルマージは、複数のタスク固有のエキスパートからの知識を統一モデルに統合することを目的としている。
既存の手法では、タスク固有の専門家と統一モデルの違いを最小限に抑える。
本稿では,タスク固有の専門家と統一モデルとの間の機能ドリフトを明示的に最小化する手法であるレイヤワイズ・タスクベクトル・マージを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:11:31Z) - RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness [28.437105789298244]
RobustMergeは、方向ロバスト性を維持するために相補的なパラメータ適応を備えたトレーニング不要なパラメータ効率のマージ手法である。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - FedDUAL: A Dual-Strategy with Adaptive Loss and Dynamic Aggregation for Mitigating Data Heterogeneity in Federated Learning [12.307490659840845]
フェデレートラーニング(FL)は、様々なクライアントからローカルに最適化されたモデルと、統一されたグローバルモデルを組み合わせる。
FLは、性能劣化、収束の遅さ、グローバルモデルの堅牢性低下など、重大な課題に直面している。
これらの問題を効果的に解決するために、革新的なデュアルストラテジーアプローチを導入する。
論文 参考訳(メタデータ) (2024-12-05T18:42:29Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - It's All in the Mix: Wasserstein Classification and Regression with Mixed Features [2.2685251390114565]
我々は、離散的特徴の存在を忠実に説明できる分布的に堅牢な予測モデルを開発し、分析する。
我々のモデルは、離散的特徴の存在に非依存な既存手法を著しく上回り得ることを実証する。
論文 参考訳(メタデータ) (2023-12-19T15:15:52Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。