Fugu-MT 論文翻訳(概要): Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic

論文の概要: Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic

arxiv url: http://arxiv.org/abs/2408.13656v1
Date: Sat, 24 Aug 2024 19:14:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 18:29:37.140951
Title: Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic
Title（参考訳）: ローカライズ・アンド・スティッチ:スパースタスク算術による効率的なモデルマージ
Authors: Yifei He, Yuzheng Hu, Yong Lin, Tong Zhang, Han Zhao,
Abstract要約: ローカライズ・アンド・スティッチ(Localize-and-Stitch)は、モデルをローカライズされた方法でマージする新しいアプローチである。提案手法は,微調整性能に寄与するスパース領域を効果的に検出できることを実証する。また,本アルゴリズムはモデル圧縮を容易にし,事前学習した知識を保存する。
参考スコア（独自算出の注目度）: 22.73746175315071
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model merging offers an effective strategy to combine the strengths of multiple finetuned models into a unified model that preserves the specialized capabilities of each. Existing methods merge models in a global manner, performing arithmetic operations across all model parameters. However, such global merging often leads to task interference, degrading the performance of the merged model. In this work, we introduce Localize-and-Stitch, a novel approach that merges models in a localized way. Our algorithm works in two steps: i) Localization: identify tiny ($1\%$ of the total parameters) localized regions in the finetuned models containing essential skills for the downstream tasks, and ii) Stitching: reintegrate only these essential regions back into the pretrained model for task synergy. We demonstrate that our approach effectively locates sparse regions responsible for finetuned performance, and the localized regions could be treated as compact and interpretable representations of the finetuned models (tasks). Empirically, we evaluate our method on various vision and language benchmarks, showing that it outperforms existing model merging methods under different data availability scenarios. Beyond strong empirical performance, our algorithm also facilitates model compression and preserves pretrained knowledge, enabling flexible and continual skill composition from multiple finetuned models with minimal storage and computational overhead. Our code is available at https://github.com/yifei-he/Localize-and-Stitch.
Abstract（参考訳）: モデルマージは、複数の微調整されたモデルの強みを、それぞれの特殊能力を保持する統一モデルに結合する効果的な戦略を提供する。既存のメソッドはモデルをグローバルな方法でマージし、すべてのモデルパラメータにわたって算術演算を実行する。しかし、このようなグローバルなマージは、しばしばタスクの干渉を引き起こし、マージされたモデルの性能を低下させる。本稿では,局所的なモデルを統合する新しいアプローチであるLocalize-and-Stitchを紹介する。私たちのアルゴリズムは2つのステップで機能します。一下流業務に欠かせない技能を有する微調整モデルにおいて、極小(総パラメータの百分の1 %)の地域を特定すること。 ii)スティッチング:これらの必須領域のみをタスクシナジーの事前訓練モデルに再統合すること。提案手法は, 微調整性能に寄与するスパース領域を効果的に検出し, 局所化領域を微調整モデル(タスク)のコンパクトかつ解釈可能な表現として扱えることを示す。実験により,本手法を様々なビジョンと言語ベンチマークで評価し,既存のモデルマージ手法を異なるデータ・アベイラビリティー・シナリオで比較した。実験性能の向上に加えて,本アルゴリズムはモデル圧縮を促進し,事前学習した知識を保存し,記憶量と計算オーバーヘッドを最小限に抑えた複数の微調整モデルからフレキシブルかつ連続的なスキル構成を可能にする。私たちのコードはhttps://github.com/yifei-he/Localize-and-Stitch.comで公開されています。

関連論文リスト

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。 2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文参考訳（メタデータ） (2025-05-16T04:02:55Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文参考訳（メタデータ） (2025-02-15T09:47:50Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。この研究は、"非ローカル"マージのより困難なシナリオを探求する。標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文参考訳（メタデータ） (2024-10-16T17:41:59Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。 PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-10-03T11:17:58Z)
PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。 PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文参考訳（メタデータ） (2024-07-02T17:24:04Z)
FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。 FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2024-06-05T13:54:28Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文参考訳（メタデータ） (2024-03-04T06:19:27Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2020-03-18T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。