論文の概要: Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic
- arxiv url: http://arxiv.org/abs/2408.13656v1
- Date: Sat, 24 Aug 2024 19:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:29:37.140951
- Title: Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic
- Title(参考訳): ローカライズ・アンド・スティッチ:スパースタスク算術による効率的なモデルマージ
- Authors: Yifei He, Yuzheng Hu, Yong Lin, Tong Zhang, Han Zhao,
- Abstract要約: ローカライズ・アンド・スティッチ(Localize-and-Stitch)は、モデルをローカライズされた方法でマージする新しいアプローチである。
提案手法は,微調整性能に寄与するスパース領域を効果的に検出できることを実証する。
また,本アルゴリズムはモデル圧縮を容易にし,事前学習した知識を保存する。
- 参考スコア(独自算出の注目度): 22.73746175315071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging offers an effective strategy to combine the strengths of multiple finetuned models into a unified model that preserves the specialized capabilities of each. Existing methods merge models in a global manner, performing arithmetic operations across all model parameters. However, such global merging often leads to task interference, degrading the performance of the merged model. In this work, we introduce Localize-and-Stitch, a novel approach that merges models in a localized way. Our algorithm works in two steps: i) Localization: identify tiny ($1\%$ of the total parameters) localized regions in the finetuned models containing essential skills for the downstream tasks, and ii) Stitching: reintegrate only these essential regions back into the pretrained model for task synergy. We demonstrate that our approach effectively locates sparse regions responsible for finetuned performance, and the localized regions could be treated as compact and interpretable representations of the finetuned models (tasks). Empirically, we evaluate our method on various vision and language benchmarks, showing that it outperforms existing model merging methods under different data availability scenarios. Beyond strong empirical performance, our algorithm also facilitates model compression and preserves pretrained knowledge, enabling flexible and continual skill composition from multiple finetuned models with minimal storage and computational overhead. Our code is available at https://github.com/yifei-he/Localize-and-Stitch.
- Abstract(参考訳): モデルマージは、複数の微調整されたモデルの強みを、それぞれの特殊能力を保持する統一モデルに結合する効果的な戦略を提供する。
既存のメソッドはモデルをグローバルな方法でマージし、すべてのモデルパラメータにわたって算術演算を実行する。
しかし、このようなグローバルなマージは、しばしばタスクの干渉を引き起こし、マージされたモデルの性能を低下させる。
本稿では,局所的なモデルを統合する新しいアプローチであるLocalize-and-Stitchを紹介する。
私たちのアルゴリズムは2つのステップで機能します。
一 下流業務に欠かせない技能を有する微調整モデルにおいて、極小(総パラメータの百分の1 %)の地域を特定すること。
ii)スティッチング:これらの必須領域のみをタスクシナジーの事前訓練モデルに再統合すること。
提案手法は, 微調整性能に寄与するスパース領域を効果的に検出し, 局所化領域を微調整モデル(タスク)のコンパクトかつ解釈可能な表現として扱えることを示す。
実験により,本手法を様々なビジョンと言語ベンチマークで評価し,既存のモデルマージ手法を異なるデータ・アベイラビリティー・シナリオで比較した。
実験性能の向上に加えて,本アルゴリズムはモデル圧縮を促進し,事前学習した知識を保存し,記憶量と計算オーバーヘッドを最小限に抑えた複数の微調整モデルからフレキシブルかつ連続的なスキル構成を可能にする。
私たちのコードはhttps://github.com/yifei-he/Localize-and-Stitch.comで公開されています。
関連論文リスト
- The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。