論文の概要: Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking
- arxiv url: http://arxiv.org/abs/2505.23117v1
- Date: Thu, 29 May 2025 05:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.697821
- Title: Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking
- Title(参考訳): Decom-Renorm-Merge: 正しい空間におけるモデルマージによるマルチタスクの改善
- Authors: Yuatyong Chaichana, Thanapat Trachu, Peerat Limkonchotiwat, Konpat Preechakul, Tirasan Khandhawit, Ekapol Chuangsuwanich,
- Abstract要約: 本稿では,重み行列を整列結合空間に分解・コーディネートするために特異値分解を利用する,単純かつ効果的な手法であるデコム・リノルム・マージ(DRM)を提案する。
実験の結果,DRMは完全微調整および低ランク適応設定において,最先端のマージ技術よりも優れていた。
- 参考スコア(独自算出の注目度): 7.361862340050819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of large-scale training, model merging has evolved into a tool for creating multitasking models efficiently. It enables the knowledge of models to be fused, without the need for heavy computation as required in traditional multitask learning. Existing merging methods often assume that entries at identical positions in weight matrices serve the same function, enabling straightforward entry-wise comparison and merging. However, this assumption overlooks the complexity of finetuned neural networks, where neurons may develop distinct feature compositions, making direct entry-wise merging problematic. We present Decom-Renorm-Merge (DRM), a simple yet effective approach that leverages Singular Value Decomposition to decompose and coordinate weight matrices into an aligned joint space, where entry-wise merging becomes possible. We showcase the effectiveness of DRM across various settings ranging from smaller encoder-based such as ViT and DeBERTa, encoder-decoder-based such as T5, and larger decoder-based such as Llama3.1-8B. Our experimental results show that DRM outperforms several state-of-the-art merging techniques across full finetuning and low-rank adaptation settings. Moreover, our analysis reveals renormalization as the crucial component for creating a robust and even joint space for merging, significantly contributing to the method's performance.
- Abstract(参考訳): 大規模トレーニングの時代、モデルマージは、マルチタスクモデルを効率的に作成するためのツールへと進化してきた。
従来のマルチタスク学習に必要な重い計算を必要とせずに、モデルの知識を融合させることができる。
既存のマージ法は、ウェイト行列における同じ位置にあるエントリが同じ機能を持つと仮定し、簡単なエントリー-ワイド比較とマージを可能にする。
しかし、この仮定は微調整ニューラルネットワークの複雑さを見落としており、ニューロンは異なる特徴組成を発達させ、直接のエントリーワイドマージの問題を引き起こす。
本稿では,重み行列を整合結合空間に分解・コーディネートするために特異値分解を利用する,単純かつ効果的なアプローチであるDecom-Renorm-Merge(DRM)を提案する。
本稿では,ViTやDeBERTaなどの小型エンコーダベース,T5などのエンコーダデコーダベース,Llama3.1-8Bのような大型デコーダベースなど,さまざまな環境におけるDRMの有効性を示す。
実験の結果,DRMは完全微調整および低ランク適応設定において,最先端のマージ技術よりも優れていた。
さらに,本解析により, 再正規化が, マージのためのロバストで, ジョイント空間を創出するための重要な要素であることを明らかにし, 提案手法の性能に大きく貢献する。
関連論文リスト
- Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation [0.9084344604313794]
本稿では,モデルマージ手法を複雑度の範囲にわたって検討する。
本稿では,効率よく適応的なマージ手法である微分適応マージ(DAM)を導入する。
以上の結果から,モデル類似度が高い場合,モデルソープのような単純な平均化手法でさえ競争力を発揮することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T20:58:29Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。