論文の概要: Navigating the Accuracy-Size Trade-Off with Flexible Model Merging
- arxiv url: http://arxiv.org/abs/2505.23209v2
- Date: Sun, 26 Oct 2025 14:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.598299
- Title: Navigating the Accuracy-Size Trade-Off with Flexible Model Merging
- Title(参考訳): フレキシブルモデルマージによる高精度取引経路のナビゲーション
- Authors: Akash Dhasade, Divyansh Jhunjhunwala, Milos Vujasinovic, Gauri Joshi, Anne-Marie Kermarrec,
- Abstract要約: 我々は、新しいデータフリーモデルマージフレームワークFlexMergeを提案する。
異なる大きさのマージモデルを柔軟に生成し、単一のマージモデルから完全なスペクトルにまたがり、すべての微調整モデルを保持する。
FlexMergeを使って、異なるアルゴリズムの精度と大きさのトレードオフを体系的に特徴づける。
- 参考スコア(独自算出の注目度): 15.497612580389479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as an efficient method to combine multiple single-task fine-tuned models. The merged model can enjoy multi-task capabilities without expensive training. While promising, merging into a single model often suffers from an accuracy gap with respect to the fine-tuned models. On the other hand, deploying all individual fine-tuned models incurs high storage costs. We propose FlexMerge, a novel data-free model merging framework that: (a) flexibly generates merged models of varying sizes, spanning the full spectrum from a single merged model to retaining all fine-tuned models; and (b) supports multiple merging algorithms in a unified framework. Using FlexMerge, we systematically characterize the accuracy-size trade-off of different algorithms. Our study reveals two key findings: first, even modestly larger merged models can yield steep accuracy gains (up to 13.5% when just doubling the size); second, algorithm rankings are not consistent as size increases, with some methods overtaking others beyond the one-model regime. These results uncover a new design dimension for model merging: developing and comparing algorithms across the full spectrum of sizes rather than only at the single-model limit. Extensive experiments on vision and NLP benchmarks, with up to 30 tasks, confirm the generality and practicality of FlexMerge.
- Abstract(参考訳): モデルマージは、複数の単一タスクの微調整モデルを組み合わせるための効率的な方法として登場した。
マージされたモデルは、高価なトレーニングなしでマルチタスク機能を楽しむことができる。
有望ではあるが、単一のモデルにマージすることは、微調整されたモデルに対する精度のギャップに悩まされることが多い。
一方、個々の微調整されたモデルをデプロイすると、高いストレージコストが発生する。
私たちはFlexMergeという新しいデータフリーモデルマージフレームワークを提案します。
a) 異なる大きさのマージされたモデルを柔軟に生成し、単一のマージされたモデルからすべての微調整されたモデルを保持するための完全なスペクトルを網羅する。
b) 統一されたフレームワークで複数のマージアルゴリズムをサポートする。
FlexMergeを使って、異なるアルゴリズムの精度と大きさのトレードオフを体系的に特徴づける。
ひとつは、わずかに大きなマージモデルであっても、(サイズを2倍にするだけで最大13.5%の)急激な精度向上が得られること、もうひとつは、アルゴリズムのランキングが、サイズが大きくなるにつれて一貫性がないこと、もうひとつは、ある手法が1モデル体制を超えること、である。
これらの結果から、モデルマージのための新しい設計次元が明らかになった。
ビジョンとNLPベンチマークに関する大規模な実験は、最大30タスクで、FlexMergeの汎用性と実用性を確認します。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization [16.420834802431536]
本稿では,FW-Merging(FW-Merging)を制約付き最適化問題として紹介する。
FW-Mergingは、データフリーマージ法を32.8%上回り、20ViTモデルをマージした場合、データインフォームされたAdamergingを8.39%上回る。
実験の結果、FW-Mergingスケールは様々なモデルソースにまたがっており、16の無関係モデルでは安定であり、20のCVタスクでは16の関連モデルでは15.3%改善され、メモリオーバーヘッドは一定に保たれている。
論文 参考訳(メタデータ) (2025-03-16T21:07:05Z) - Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。
多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。
単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Pareto Merging: Multi-Objective Optimization for Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージ問題を提案する。
提案したモデルマージにより,多様なトレードオフモデルが生成され,最先端のマージベースラインと比較して高いテスト精度が得られることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:41:14Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。