論文の概要: FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization
- arxiv url: http://arxiv.org/abs/2503.12649v2
- Date: Tue, 25 Mar 2025 15:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:36.653870
- Title: FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization
- Title(参考訳): FW-Merging: Frank-Wolfe 最適化によるスケーリングモデルマージ
- Authors: Hao Mark Chen, Shell Xu Hu, Wayne Luk, Timothy Hospedales, Hongxiang Fan,
- Abstract要約: 本稿では,FW-Merging(FW-Merging)を制約付き最適化問題として紹介する。
FW-Mergingは、データフリーマージ法を32.8%上回り、20ViTモデルをマージした場合、データインフォームされたAdamergingを8.39%上回る。
実験の結果、FW-Mergingスケールは様々なモデルソースにまたがっており、16の無関係モデルでは安定であり、20のCVタスクでは16の関連モデルでは15.3%改善され、メモリオーバーヘッドは一定に保たれている。
- 参考スコア(独自算出の注目度): 16.420834802431536
- License:
- Abstract: Model merging has emerged as a promising approach for multi-task learning (MTL), offering a data-efficient alternative to conventional fine-tuning. However, with the rapid development of the open-source AI ecosystem and the increasing availability of fine-tuned foundation models, existing model merging methods face two key limitations: (i) They are primarily designed for in-house fine-tuned models, making them less adaptable to diverse model sources with partially unknown model and task information, (ii) They struggle to scale effectively when merging numerous model checkpoints. To address these challenges, we formulate model merging as a constrained optimization problem and introduce a novel approach: Frank-Wolfe Merging (FW-Merging). Inspired by Frank-Wolfe optimization, our approach iteratively selects the most relevant model in the pool to minimize a linear approximation of the objective function and then executes a local merging similar to the Frank-Wolfe update. The objective function is designed to capture the desired behavior of the target-merged model, while the fine-tuned candidate models define the constraint set. More importantly, FW-Merging serves as an orthogonal technique for existing merging methods, seamlessly integrating with them to further enhance accuracy performance. Our experiments show that FW-Merging scales across diverse model sources, remaining stable with 16 irrelevant models and improving by 15.3% with 16 relevant models on 20 CV tasks, while maintaining constant memory overhead, unlike the linear overhead of data-informed merging methods. Compared with the state-of-the-art approaches, FW-Merging surpasses the data-free merging method by 32.8% and outperforms the data-informed Adamerging by 8.39% when merging 20 ViT models. Our code is open-sourced at github.com/hmarkc/FW-Merging.
- Abstract(参考訳): モデルマージはマルチタスク学習(MTL)の有望なアプローチとして登場し、従来の微調整に代わるデータ効率の代替手段を提供する。
しかし、オープンソースのAIエコシステムの急速な発展と、微調整された基盤モデルの可用性の向上により、既存のモデルマージ方法は2つの重要な制限に直面している。
(i)主に社内の微調整モデル向けに設計されており、部分的に未知のモデルやタスク情報を持つ多様なモデルソースに適応しにくい。
(ii) 多数のモデルチェックポイントをマージする際には、効果的にスケールするのに苦労します。
これらの課題に対処するために,モデルマージを制約付き最適化問題として定式化し,FW-Merging(FW-Merging)という新しいアプローチを導入する。
提案手法は,Frank-Wolfe最適化にヒントを得て,目的関数の線形近似を最小限に抑えるために,プール内の最も関連性の高いモデルを反復的に選択し,Frank-Wolfe更新と同様の局所マージを実行する。
目的関数は、ターゲットマージされたモデルの望ましい振る舞いをキャプチャするために設計され、微調整された候補モデルは制約セットを定義する。
さらに重要なのは、FW-Mergingは既存のマージ手法の直交技術として機能し、それらをシームレスに統合して精度を向上する。
実験の結果、FW-Mergingスケールは、データインフォームドマージ手法の線形オーバーヘッドとは異なり、様々なモデルソースにまたがるスケールであり、16の無関係モデルでは安定であり、20のCVタスクでは16の関連モデルでは15.3%改善されていることがわかった。
最先端のアプローチと比較して、FW-Mergingはデータフリーマージ法を32.8%上回り、20ViTモデルをマージした場合、データインフォームされたAdamergingを8.39%上回っている。
私たちのコードはgithub.com/hmarkc/FW-Mergingでオープンソース化されています。
関連論文リスト
- Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging [30.38047100067552]
推論機能は、大きな言語モデルにとって重要なフロンティアである。
機能を効率的に補完する1つの方法は、モデルマージである。
本稿では,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T12:47:25Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。