論文の概要: Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs
- arxiv url: http://arxiv.org/abs/2504.10902v1
- Date: Tue, 15 Apr 2025 06:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:18.762690
- Title: Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs
- Title(参考訳): LLMのタスク算術性能を高めるサブモジュールリニアリティの活用
- Authors: Rui Dai, Sile Hu, Xu Shen, Yonggang Zhang, Xinmei Tian, Jieping Ye,
- Abstract要約: 近年の研究では、線形性を示すモデルがタスク演算の性能を向上させることが示されている。
我々は、この線型性はモデルの部分加群の中にすでに存在すると論じる。
我々はこれらのサブモジュールを独立にマージする革新的なモデルマージ戦略を提案する。
- 参考スコア(独自算出の注目度): 51.09983600916971
- License:
- Abstract: Task arithmetic is a straightforward yet highly effective strategy for model merging, enabling the resultant model to exhibit multi-task capabilities. Recent research indicates that models demonstrating linearity enhance the performance of task arithmetic. In contrast to existing methods that rely on the global linearization of the model, we argue that this linearity already exists within the model's submodules. In particular, we present a statistical analysis and show that submodules (e.g., layers, self-attentions, and MLPs) exhibit significantly higher linearity than the overall model. Based on these findings, we propose an innovative model merging strategy that independently merges these submodules. Especially, we derive a closed-form solution for optimal merging weights grounded in the linear properties of these submodules. Experimental results demonstrate that our method consistently outperforms the standard task arithmetic approach and other established baselines across different model scales and various tasks. This result highlights the benefits of leveraging the linearity of submodules and provides a new perspective for exploring solutions for effective and practical multi-task model merging.
- Abstract(参考訳): タスク演算は、モデルマージにとって単純だが非常に効果的な戦略であり、結果のモデルがマルチタスク機能を示すことができる。
近年の研究では、線形性を示すモデルがタスク演算の性能を向上させることが示されている。
モデルの大域的線型化に依存する既存の方法とは対照的に、この線型性はモデルの部分加群の中にすでに存在すると論じる。
特に、統計的解析を行い、部分加群(例えば、層、自己アテンション、MLP)が全体モデルよりもはるかに高い線形性を示すことを示す。
これらの知見に基づき、独立にこれらのサブモジュールをマージする革新的なモデルマージ戦略を提案する。
特に、これらの部分加群の線型性質を基礎とした最適マージ重みに対する閉形式解を導出する。
実験結果から,本手法は,異なるモデルスケールおよび様々なタスクに対して,標準的なタスク演算手法や,他の確立されたベースラインを一貫して上回ることを示した。
この結果は、サブモジュールの線型性を活用する利点を強調し、効果的で実用的なマルチタスクモデルマージのソリューションを探究するための新しい視点を提供する。
関連論文リスト
- Superpose Singular Features for Model Merging [29.728307343119894]
Superpose Features from Task Matrix (SFTM) は、個々のタスクモデルから統合されたモデルに機能を重畳する新しいアプローチである。
提案手法は既存の手法を一貫して上回り,優れた性能とアウト・オブ・ディストリビューションの一般化を向上する。
論文 参考訳(メタデータ) (2025-02-15T07:05:55Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.940242741914748]
一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。
提案手法をFCIL(Federated Class-Incremental Learning)に適用する。
本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-23T15:30:13Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。