論文の概要: Decouple and Orthogonalize: A Data-Free Framework for LoRA Merging
- arxiv url: http://arxiv.org/abs/2505.15875v1
- Date: Wed, 21 May 2025 16:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.834435
- Title: Decouple and Orthogonalize: A Data-Free Framework for LoRA Merging
- Title(参考訳): DecoupleとOrthogonalize: LoRAマージのためのデータフリーフレームワーク
- Authors: Shenghe Zheng, Hongzhi Wang, Chenyu Huang, Xiaohui Wang, Tao Chen, Jiayuan Fan, Shuyue Hu, Peng Ye,
- Abstract要約: 分離直交メルジング手法(DO-Merging)を提案する。
パラメータを大きさと方向の成分に分離することにより、マージしたモデルの方向アライメントに対する大きさ差の影響を低減する。
我々は、視覚、言語、マルチモーダル領域にわたる広範な実験を通じて、提案したDO-Mergingは、既存のマージメソッドよりも、最小限のコストで大幅に高いパフォーマンスを達成することができることを検証した。
- 参考スコア(独自算出の注目度): 18.650279202312614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With more open-source models available for diverse tasks, model merging has gained attention by combining models into one, reducing training, storage, and inference costs. Current research mainly focuses on model merging for full fine-tuning, overlooking the popular LoRA. However, our empirical analysis reveals that: a) existing merging methods designed for full fine-tuning perform poorly on LoRA; b) LoRA modules show much larger parameter magnitude variance than full fine-tuned weights; c) greater parameter magnitude variance correlates with worse merging performance. Considering that large magnitude variances cause deviations in the distribution of the merged parameters, resulting in information loss and performance degradation, we propose a Decoupled and Orthogonal merging approach(DO-Merging). By separating parameters into magnitude and direction components and merging them independently, we reduce the impact of magnitude differences on the directional alignment of the merged models, thereby preserving task information. Furthermore, we introduce a data-free, layer-wise gradient descent method with orthogonal constraints to mitigate interference during the merging of direction components. We provide theoretical guarantees for both the decoupling and orthogonal components. And we validate through extensive experiments across vision, language, and multi-modal domains that our proposed DO-Merging can achieve significantly higher performance than existing merging methods at a minimal cost. Notably, each component can be flexibly integrated with existing methods, offering near free-lunch improvements across tasks.
- Abstract(参考訳): 多様なタスクで利用可能なオープンソースモデルが増えるにつれ、モデルマージはモデルをひとつに組み合わせ、トレーニング、ストレージ、推論コストを削減することで注目を集めている。
現在の研究は主に、人気のLoRAを見渡して、完全な微調整のためのモデルマージに焦点を当てている。
しかし、我々の経験的分析は、こう明らかにしている。
a) 完全微調整のための既存の合併方法がLoRAに悪影響を及ぼすよう設計されていること。
b) LoRAモジュールは,完全な微調整重量よりもはるかに大きなパラメータ等級のばらつきを示す。
c) パラメータの大きさのばらつきは、マージ性能の悪化と相関する。
大規模分散が統合されたパラメータの分布に偏りをもたらし、情報損失と性能劣化をもたらすことを考慮し、デカップリングと直交の融合アプローチ(DO-Merging)を提案する。
パラメータを大きさと方向の成分に分離して独立にマージすることにより、マージしたモデルの方向アライメントに対する大きさ差の影響を低減し、タスク情報を保存する。
さらに,方向成分の融合時の干渉を軽減するために,直交制約を用いたデータ自由層勾配降下法を提案する。
分離成分と直交成分の両方を理論的に保証する。
そして、我々は、視覚、言語、マルチモーダル領域にわたる広範な実験を通じて、提案したDO-Mergingは、既存のマージメソッドよりも、最小のコストで大幅に高いパフォーマンスを達成することができることを検証した。
特に、各コンポーネントは既存のメソッドと柔軟に統合することができ、タスク間でほぼフリーランチの改善を提供する。
関連論文リスト
- Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging [38.12136955174922]
個別タスクのための微調整された大規模言語モデル(LM)は、高いパフォーマンスをもたらすが、デプロイメントやストレージには高価である。
最近の研究は、複数のタスク固有のモデルを追加トレーニングなしで単一のマルチタスクモデルに結合するモデルマージについて検討している。
既存のマージ方式は、性能劣化のためにローランク適応(LoRA)を微調整したモデルでは失敗することが多い。
論文 参考訳(メタデータ) (2025-05-28T23:28:12Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - NAN: A Training-Free Solution to Coefficient Estimation in Model Merging [61.36020737229637]
最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。
パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
論文 参考訳(メタデータ) (2025-05-22T02:46:08Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging [11.708743111945727]
大きな言語モデル(LLM)は印象的な能力を示しているが、その高い計算コストはカスタマイズに困難をもたらす。
モデルマージはコスト効率の良い代替手段を提供するが、既存のメソッドはパラメータ間の干渉に悩まされ、パフォーマンスが低下する。
本稿では,モデル内干渉とモデル間干渉を緩和する新しい手法である,最適脳反復法を提案する。
論文 参考訳(メタデータ) (2025-02-17T09:07:49Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。
本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。
本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文 参考訳(メタデータ) (2024-10-01T07:47:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。