論文の概要: Whoever Started the Interference Should End It: Guiding Data-Free Model Merging via Task Vectors
- arxiv url: http://arxiv.org/abs/2503.08099v1
- Date: Tue, 11 Mar 2025 07:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:02.380042
- Title: Whoever Started the Interference Should End It: Guiding Data-Free Model Merging via Task Vectors
- Title(参考訳): 誰が干渉を始めたか - タスクベクトルによるデータフリーモデルマージを導く
- Authors: Runxi Cheng, Feng Xiong, Yongxian Wei, Wanyun Zhu, Chun Yuan,
- Abstract要約: textbfWUDI-Merging(textbfWhoever started the interference shotextbfUld entextbfD textbfIt)は、追加データや再スケーリング係数なしで干渉を排除するモデルマージ手法である。
視覚と言語ベンチマークの総合的な経験的評価は、我々の方法の優位性を示している。
- 参考スコア(独自算出の注目度): 27.848233831749216
- License:
- Abstract: Model merging seeks to integrate task-specific expert models into a unified architecture while preserving multi-task generalization capabilities, yet parameter interference between constituent models frequently induces performance degradation. Although prior work has explored many merging strategies, resolving interference without additional data for retraining or test-time computation remains challenging. In this paper, we theoretically demonstrate that the task vectors of the linear layer constitute an approximate linear subspace for its corresponding input. Therefore, we can minimize interference under the guidance of task vectors. Based on this insight, we propose \textbf{WUDI-Merging} (\textbf{W}hoever started the interference sho\textbf{U}ld en\textbf{D} \textbf{I}t), a simple yet effective model merging method that eliminates interference without any additional data or rescaling coefficients. Comprehensive empirical evaluations across vision and language benchmarks demonstrate our method's superiority, achieving state-of-the-art performance in data-free model merging scenarios (average 10.9\% improvement versus baseline methods) while even outperforming mainstream test-time adaptation approaches by 3.3\%, and only very few computing resources are required. The code will be publicly available soon.
- Abstract(参考訳): モデルマージは、タスク固有のエキスパートモデルを統一アーキテクチャに統合し、マルチタスクの一般化機能を保存するが、構成モデル間のパラメータ干渉は、しばしば性能劣化を引き起こす。
これまで多くのマージ戦略を検討してきたが、リトレーニングやテストタイム計算のための追加データなしで干渉を解決することは依然として困難である。
本稿では,線形層のタスクベクトルが対応する入力に対して近似線形部分空間を構成することを理論的に示す。
したがって,タスクベクトルの誘導による干渉を最小限に抑えることができる。
この知見に基づき、追加データや再スケーリング係数なしで干渉を排除するシンプルなモデルマージング法である \textbf{WUDI-Merging} (\textbf{W}hoever started the interference sho\textbf{U}ld en\textbf{D} \textbf{I}t) を提案する。
データフリーモデルマージシナリオ(平均10.9倍の改善率とベースライン手法)において、我々の手法の優位性を実証し、また、主要なテスト時間適応アプローチを3.3倍に上回り、非常に少ない計算資源が要求される。
コードはまもなく公開される予定だ。
関連論文リスト
- LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。
我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-02-15T10:18:46Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Transport with Support: Data-Conditional Diffusion Bridges [18.933928516349397]
制約付き時系列データ生成タスクを解決するために,Iterative Smoothing Bridge (ISB)を導入する。
我々は,ISBが高次元データによく一般化し,計算効率が高く,中間時間と終時間における限界値の正確な推定値を提供することを示した。
論文 参考訳(メタデータ) (2023-01-31T13:50:16Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Unsupervised Source Separation via Bayesian Inference in the Latent
Domain [4.583433328833251]
最先端のオーディオソース分離モデルは、教師付きデータ駆動アプローチに依存している。
本稿では,時間領域信号の潜在表現を直接操作する,単純で効果的な非教師付き分離アルゴリズムを提案する。
Slakh データセット arXiv:1909.08494 に対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2021-10-11T14:32:55Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。