論文の概要: DC-Merge: Improving Model Merging with Directional Consistency
- arxiv url: http://arxiv.org/abs/2603.06242v1
- Date: Fri, 06 Mar 2026 13:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.776219
- Title: DC-Merge: Improving Model Merging with Directional Consistency
- Title(参考訳): DC-Merge: 方向性整合性によるモデルマージの改善
- Authors: Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei,
- Abstract要約: DC-Mergeは方向整合モデルマージの手法である。
各タスクベクトルのエネルギー分布は、その特異値を滑らかにすることで均衡する。
ビジョンとビジョン言語ベンチマークの実験では、DC-Mergeは一貫して最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 62.02490833158024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging aims to integrate multiple task-adapted models into a unified model that preserves the knowledge of each task. In this paper, we identify that the key to this knowledge retention lies in maintaining the directional consistency of singular spaces between merged multi-task vector and individual task vectors. However, this consistency is frequently compromised by two issues: i) an imbalanced energy distribution within task vectors, where a small fraction of singular values dominate the total energy, leading to the neglect of semantically important but weaker components upon merging, and ii) the geometric inconsistency of task vectors in parameter space, which causes direct merging to distort their underlying directional geometry. To address these challenges, we propose DC-Merge, a method for directional-consistent model merging. It first balances the energy distribution of each task vector by smoothing its singular values, ensuring all knowledge components are adequately represented. These energy-balanced vectors are then projected onto a shared orthogonal subspace to align their directional geometries with minimal reconstruction error. Finally, the aligned vectors are aggregated in the shared orthogonal subspace and projected back to the original parameter space. Extensive experiments on vision and vision-language benchmarks show that DC-Merge consistently achieves state-of-the-art performance in both full fine-tuning and LoRA settings. The implementation code is available at https://github.com/Tobeginwith/DC-Merge.
- Abstract(参考訳): モデルマージは、複数のタスク適応モデルを統合することを目的としており、各タスクの知識を保存する統一モデルである。
本稿では、この知識保持の鍵は、統合されたマルチタスクベクトルと個別タスクベクトルの間の特異空間の方向整合性を維持することである。
しかし、この一貫性はしばしば2つの問題によって妥協される。
一 タスクベクトル内の不均衡エネルギー分布であって、特異値のごく一部が総エネルギーを支配し、統合時に意味的に重要でより弱い成分を無視するものであること。
二 パラメータ空間におけるタスクベクトルの幾何学的不整合により、直接マージし、その基礎となる方向幾何学を歪めること。
これらの課題に対処するために、方向整合モデルマージ法であるDC-Mergeを提案する。
まず、各タスクベクトルのエネルギー分布を、その特異な値を滑らかにすることでバランスさせ、すべての知識成分が適切に表現されることを保証する。
これらのエネルギー平衡ベクトルは共有直交部分空間に投影され、その方向ジオメトリを最小の再構成誤差で整列する。
最後に、整列ベクトルは共有直交部分空間に集約され、元のパラメータ空間に投影される。
ビジョンとヴィジュアル言語ベンチマークの大規模な実験により、DC-Mergeはフル微調整とLORA設定の両方で常に最先端のパフォーマンスを達成している。
実装コードはhttps://github.com/Tobeginwith/DC-Merge.comで公開されている。
関連論文リスト
- Functionality-Oriented LLM Merging on the Fisher--Rao Manifold [14.349284217707575]
重み空間のマージは、複数の微調整LDMを再訓練せずに単一のモデルに組み合わせることを目的としている。
我々は,標準を守り,マルチエキスパートマージに直接一般化する軽量な球面プロキシを用いて,実用的な固定点アルゴリズムを導出する。
論文 参考訳(メタデータ) (2026-03-05T09:08:38Z) - Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - Merging without Forgetting: Continual Fusion of Task-Specific Models via Optimal Transport [29.006391770977796]
OTMFは最適輸送理論に根ざした新しいモデル統合フレームワークである。
従来のタスクを再考することなく、各タスクベクタを漸進的に統合する、連続的な融合パラダイムをサポートする。
我々は、複数の視覚と言語ベンチマークに関する総合的な実験を行い、OTMFが精度と効率の両面で最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-11-24T15:27:47Z) - Purifying Task Vectors in Knowledge-Aware Subspace for Model Merging [83.5273168208788]
モデルマージは、個別に調整されたモデルのタスク固有の能力を、余分なトレーニングなしで単一のモデルに統合することを目的としている。
統合モデルは、タスクベクトルのタスク非関連冗長性に起因する競合により、しばしば顕著なパフォーマンス劣化に悩まされる。
本稿では,これらの課題を克服するために,知識対応サブ空間におけるTAsk Vectors (PAVE) の純粋化を提案する。
論文 参考訳(メタデータ) (2025-10-16T14:02:57Z) - Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking [17.095655627061934]
本稿では,重み行列を整列結合空間に分解・コーディネートするために特異値分解を利用する,単純かつ効果的な手法であるデコム・リノルム・マージ(DRM)を提案する。
実験の結果,DRMは完全微調整および低ランク適応設定において,最先端のマージ技術よりも優れていた。
論文 参考訳(メタデータ) (2025-05-29T05:37:53Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer [71.82644727907146]
多様な双方向の高密度予測タスクに対して,$underlineComP$lementary $underlinetr$ansformer, $textbfComPtr$を提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。