論文の概要: Decouple and Orthogonalize: A Data-Free Framework for LoRA Merging
- arxiv url: http://arxiv.org/abs/2505.15875v1
- Date: Wed, 21 May 2025 16:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.834435
- Title: Decouple and Orthogonalize: A Data-Free Framework for LoRA Merging
- Title(参考訳): DecoupleとOrthogonalize: LoRAマージのためのデータフリーフレームワーク
- Authors: Shenghe Zheng, Hongzhi Wang, Chenyu Huang, Xiaohui Wang, Tao Chen, Jiayuan Fan, Shuyue Hu, Peng Ye,
- Abstract要約: 分離直交メルジング手法(DO-Merging)を提案する。
パラメータを大きさと方向の成分に分離することにより、マージしたモデルの方向アライメントに対する大きさ差の影響を低減する。
我々は、視覚、言語、マルチモーダル領域にわたる広範な実験を通じて、提案したDO-Mergingは、既存のマージメソッドよりも、最小限のコストで大幅に高いパフォーマンスを達成することができることを検証した。
- 参考スコア(独自算出の注目度): 18.650279202312614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With more open-source models available for diverse tasks, model merging has gained attention by combining models into one, reducing training, storage, and inference costs. Current research mainly focuses on model merging for full fine-tuning, overlooking the popular LoRA. However, our empirical analysis reveals that: a) existing merging methods designed for full fine-tuning perform poorly on LoRA; b) LoRA modules show much larger parameter magnitude variance than full fine-tuned weights; c) greater parameter magnitude variance correlates with worse merging performance. Considering that large magnitude variances cause deviations in the distribution of the merged parameters, resulting in information loss and performance degradation, we propose a Decoupled and Orthogonal merging approach(DO-Merging). By separating parameters into magnitude and direction components and merging them independently, we reduce the impact of magnitude differences on the directional alignment of the merged models, thereby preserving task information. Furthermore, we introduce a data-free, layer-wise gradient descent method with orthogonal constraints to mitigate interference during the merging of direction components. We provide theoretical guarantees for both the decoupling and orthogonal components. And we validate through extensive experiments across vision, language, and multi-modal domains that our proposed DO-Merging can achieve significantly higher performance than existing merging methods at a minimal cost. Notably, each component can be flexibly integrated with existing methods, offering near free-lunch improvements across tasks.
- Abstract(参考訳): 多様なタスクで利用可能なオープンソースモデルが増えるにつれ、モデルマージはモデルをひとつに組み合わせ、トレーニング、ストレージ、推論コストを削減することで注目を集めている。
現在の研究は主に、人気のLoRAを見渡して、完全な微調整のためのモデルマージに焦点を当てている。
しかし、我々の経験的分析は、こう明らかにしている。
a) 完全微調整のための既存の合併方法がLoRAに悪影響を及ぼすよう設計されていること。
b) LoRAモジュールは,完全な微調整重量よりもはるかに大きなパラメータ等級のばらつきを示す。
c) パラメータの大きさのばらつきは、マージ性能の悪化と相関する。
大規模分散が統合されたパラメータの分布に偏りをもたらし、情報損失と性能劣化をもたらすことを考慮し、デカップリングと直交の融合アプローチ(DO-Merging)を提案する。
パラメータを大きさと方向の成分に分離して独立にマージすることにより、マージしたモデルの方向アライメントに対する大きさ差の影響を低減し、タスク情報を保存する。
さらに,方向成分の融合時の干渉を軽減するために,直交制約を用いたデータ自由層勾配降下法を提案する。
分離成分と直交成分の両方を理論的に保証する。
そして、我々は、視覚、言語、マルチモーダル領域にわたる広範な実験を通じて、提案したDO-Mergingは、既存のマージメソッドよりも、最小のコストで大幅に高いパフォーマンスを達成することができることを検証した。
特に、各コンポーネントは既存のメソッドと柔軟に統合することができ、タスク間でほぼフリーランチの改善を提供する。
関連論文リスト
- NAN: A Training-Free Solution to Coefficient Estimation in Model Merging [61.36020737229637]
最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。
パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
論文 参考訳(メタデータ) (2025-05-22T02:46:08Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging [11.708743111945727]
大きな言語モデル(LLM)は印象的な能力を示しているが、その高い計算コストはカスタマイズに困難をもたらす。
モデルマージはコスト効率の良い代替手段を提供するが、既存のメソッドはパラメータ間の干渉に悩まされ、パフォーマンスが低下する。
本稿では,モデル内干渉とモデル間干渉を緩和する新しい手法である,最適脳反復法を提案する。
論文 参考訳(メタデータ) (2025-02-17T09:07:49Z) - MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。
本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。
本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文 参考訳(メタデータ) (2024-10-01T07:47:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。