論文の概要: NAN: A Training-Free Solution to Coefficient Estimation in Model Merging
- arxiv url: http://arxiv.org/abs/2505.16148v1
- Date: Thu, 22 May 2025 02:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.990435
- Title: NAN: A Training-Free Solution to Coefficient Estimation in Model Merging
- Title(参考訳): NAN: モデルマージにおける係数推定のトレーニング不要ソリューション
- Authors: Chongjie Si, Kangtao Lv, Jingjing Jiang, Yadao Wang, Yongwei Wang, Xiaokang Yang, Wenbo Su, Bo Zheng, Wei Shen,
- Abstract要約: 最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。
パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
- 参考スコア(独自算出の注目度): 61.36020737229637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging offers a training-free alternative to multi-task learning by combining independently fine-tuned models into a unified one without access to raw data. However, existing approaches often rely on heuristics to determine the merging coefficients, limiting their scalability and generality. In this work, we revisit model merging through the lens of least-squares optimization and show that the optimal merging weights should scale with the amount of task-specific information encoded in each model. Based on this insight, we propose NAN, a simple yet effective method that estimates model merging coefficients via the inverse of parameter norm. NAN is training-free, plug-and-play, and applicable to a wide range of merging strategies. Extensive experiments on show that NAN consistently improves performance of baseline methods.
- Abstract(参考訳): モデルマージは、個別に微調整されたモデルを生データにアクセスせずに統一されたモデルに組み合わせることで、マルチタスク学習のトレーニング不要な代替手段を提供する。
しかし、既存のアプローチは、しばしばマージ係数を決定するためにヒューリスティックスに依存し、スケーラビリティと一般性を制限する。
本研究では,最小二乗最適化のレンズを通してマージするモデルを再検討し,各モデルに符号化されたタスク固有情報の量と最適なマージ重みがスケールすることを示す。
この知見に基づいて,パラメータノルムの逆によるモデルマージ係数を推定する,単純かつ効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
NANはベースライン法の性能を一貫して改善することを示す大規模な実験を行った。
関連論文リスト
- Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。
階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。
コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-05T20:09:59Z) - Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation [15.47711837051754]
Mixup Model Mergeは、Mixupデータ拡張技術にインスパイアされた革新的なアプローチである。
M$3$は、マージされたモデルの性能を大幅に向上させる、単純だが効果的なモデルマージ手法である。
論文 参考訳(メタデータ) (2025-02-21T13:01:26Z) - LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。
我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-02-15T10:18:46Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。