論文の概要: Model Merging via Data-Free Covariance Estimation
- arxiv url: http://arxiv.org/abs/2604.01329v1
- Date: Wed, 01 Apr 2026 19:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.856037
- Title: Model Merging via Data-Free Covariance Estimation
- Title(参考訳): データフリーな共分散推定によるモデルマージ
- Authors: Marawan Gamal Abdel Hameed, Derek Tam, Pascal Jr Tikeng Notsawo, Colin Raffel, Guillaume Rabusseau,
- Abstract要約: モデルマージ(英: Modelmerging)とは、個々のモデルを組み合わせて個々の能力を継承するモデルを生成する方法である。
いくつかのマージ手法は訓練のパフォーマンスに近づくことができるが、それらはしばしば動機付けられ、理論上の正当化が欠如している。
一定の条件下では、差分行列から直接共分散行列を推定でき、データの必要性を排除できることを示す。
我々は,86Mパラメータから7Bパラメータまでのモデルに基づいて,視覚と言語ベンチマークのアプローチを検証する。
- 参考スコア(独自算出の注目度): 26.994847085552617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging provides a way of cheaply combining individual models to produce a model that inherits each individual's capabilities. While some merging methods can approach the performance of multitask training, they are often heuristically motivated and lack theoretical justification. A principled alternative is to pose model merging as a layer-wise optimization problem that directly minimizes interference between tasks. However, this formulation requires estimating per-layer covariance matrices from data, which may not be available when performing merging. In contrast, many of the heuristically-motivated methods do not require auxiliary data, making them practically advantageous. In this work, we revisit the interference minimization framework and show that, under certain conditions, covariance matrices can be estimated directly from difference matrices, eliminating the need for data while also reducing computational costs. We validate our approach across vision and language benchmarks on models ranging from 86M parameters to 7B parameters, outperforming previous data-free state-of-the-art merging methods
- Abstract(参考訳): モデルマージは、個々のモデルを安価に組み合わせて、個々の能力を継承するモデルを生成する方法を提供する。
いくつかのマージ手法はマルチタスクトレーニングのパフォーマンスにアプローチできるが、しばしばヒューリスティックに動機づけられ、理論上の正当化が欠如している。
原則として、モデルマージを階層的に最適化する問題として、タスク間の干渉を直接最小化する。
しかし、この定式化では、データから層ごとの共分散行列を推定する必要がある。
対照的に、ヒューリスティックな動機付けの手法の多くは補助的なデータを必要としないため、実質的に有利である。
本研究では、干渉最小化フレームワークを再検討し、ある条件下では、共分散行列を差分行列から直接推定でき、計算コストを削減しつつデータの必要性を排除できることを示す。
86Mパラメータから7Bパラメータまでのモデル上での視覚および言語ベンチマークによるアプローチの有効性を検証する。
関連論文リスト
- ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation [34.173549610331385]
モデルマージは、複数のタスク固有のエキスパートモデルと1つのモデルを組み合わせることを目的としている。
専門家間の干渉、特に異なる目的でトレーニングされた場合、しばしばパフォーマンスが著しく低下する。
acemは、タスク間干渉を効果的に緩和する適応的共分散推定フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T12:53:04Z) - Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration [14.503741632243646]
マルチタスクモデルマージは、複数のタスク固有のエキスパートからの知識を統一モデルに統合することを目的としている。
既存の手法では、タスク固有の専門家と統一モデルの違いを最小限に抑える。
本稿では,タスク固有の専門家と統一モデルとの間の機能ドリフトを明示的に最小化する手法であるレイヤワイズ・タスクベクトル・マージを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:11:31Z) - Whoever Started the Interference Should End It: Guiding Data-Free Model Merging via Task Vectors [27.848233831749216]
textbfWUDI-Merging(textbfWhoever started the interference shotextbfUld entextbfD textbfIt)は、追加データや再スケーリング係数なしで干渉を排除するモデルマージ手法である。
視覚と言語ベンチマークの総合的な経験的評価は、我々の方法の優位性を示している。
論文 参考訳(メタデータ) (2025-03-11T07:01:35Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Minimal Variance Model Aggregation: A principled, non-intrusive, and versatile integration of black box models [0.2455468619225742]
様々なモデルから予測を統合するデータ駆動型フレームワークであるMEVA(Minimal Empirical Variance Aggregation)を紹介する。
この非侵襲的モデルに依存しないアプローチは、貢献するモデルをブラックボックスとして扱い、多様な方法論からの出力を許容する。
論文 参考訳(メタデータ) (2024-09-25T18:33:21Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。