論文の概要: Navigating the Accuracy-Size Trade-Off with Flexible Model Merging
- arxiv url: http://arxiv.org/abs/2505.23209v1
- Date: Thu, 29 May 2025 07:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.75176
- Title: Navigating the Accuracy-Size Trade-Off with Flexible Model Merging
- Title(参考訳): フレキシブルモデルマージによる高精度取引経路のナビゲーション
- Authors: Akash Dhasade, Divyansh Jhunjhunwala, Milos Vujasinovic, Gauri Joshi, Anne-Marie Kermarrec,
- Abstract要約: 我々は、新しいデータフリーモデルマージフレームワークFlexMergeを提案する。
比較的大きなマージモデルであっても、単一のモデルよりもかなり精度が向上できることが示される。
FlexMergeは、融合モデルサイズのきめ細かい制御を提供することで、柔軟でデータフリーで高性能なソリューションを提供します。
- 参考スコア(独自算出の注目度): 16.936134010292232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as an efficient method to combine multiple single-task fine-tuned models. The merged model can enjoy multi-task capabilities without expensive training. While promising, merging into a single model often suffers from an accuracy gap with respect to individual fine-tuned models. On the other hand, deploying all individual fine-tuned models incurs high costs. We propose FlexMerge, a novel data-free model merging framework to flexibly generate merged models of varying sizes, spanning the spectrum from a single merged model to retaining all individual fine-tuned models. FlexMerge treats fine-tuned models as collections of sequential blocks and progressively merges them using any existing data-free merging method, halting at a desired size. We systematically explore the accuracy-size trade-off exhibited by different merging algorithms in combination with FlexMerge. Extensive experiments on vision and NLP benchmarks, with up to 30 tasks, reveal that even modestly larger merged models can provide substantial accuracy improvements over a single model. By offering fine-grained control over fused model size, FlexMerge provides a flexible, data-free, and high-performance solution for diverse deployment scenarios.
- Abstract(参考訳): モデルマージは、複数の単一タスクの微調整モデルを組み合わせるための効率的な方法として登場した。
マージされたモデルは、高価なトレーニングなしでマルチタスク機能を楽しむことができる。
有望な一方で、単一のモデルにマージすることは、個々の微調整されたモデルに対する精度のギャップに悩まされることが多い。
一方、個々の微調整されたモデルをデプロイすると、高いコストが発生する。
我々はFlexMergeを提案する。FlexMergeはデータフリーなモデルマージフレームワークで、異なるサイズのマージモデルを柔軟に生成し、単一のマージモデルからスペクトルを分散し、個々の微調整モデルをすべて保持する。
FlexMergeは、微調整されたモデルをシーケンシャルブロックのコレクションとして扱い、既存のデータフリーマージメソッドを使用して徐々にマージし、望ましいサイズで停止する。
我々はFlexMergeと組み合わせて、異なるマージアルゴリズムによって提示される精度と大きさのトレードオフを体系的に検討する。
最大30タスクの視覚とNLPベンチマークに関する大規模な実験により、わずかに大きなマージモデルでさえ、1つのモデルに対してかなりの精度の向上をもたらすことが判明した。
FlexMergeは、融合したモデルサイズをきめ細かいコントロールを提供することで、多様なデプロイメントシナリオに対して、柔軟で、データフリーで、ハイパフォーマンスなソリューションを提供します。
関連論文リスト
- AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。
多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。
単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。