論文の概要: Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation
- arxiv url: http://arxiv.org/abs/2502.15434v3
- Date: Wed, 06 Aug 2025 15:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.903784
- Title: Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation
- Title(参考訳): 混合モデルマージ:ランダム化線形補間によるモデルマージ性能の向上
- Authors: Yue Zhou, Yi Chang, Yuan Wu,
- Abstract要約: モデルマージは、複数のタスク固有のモデルを統合モデルに統合し、タスク固有のモデルの能力を継承することを目的としている。
既存のモデルマージ手法は、最終的なマージモデルに対する異なるタスク固有モデルの寄与率の違いを考慮していないことが多い。
そこで我々はMixup Model Merge(M3)を提案する。これはMixupデータ拡張手法のランダム化線形戦略に着想を得た単純で効果的な手法である。
- 参考スコア(独自算出の注目度): 15.47711837051754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging aims to integrate multiple task-specific models into a unified model that inherits the capabilities of the task-specific models, without additional training. Existing model merging methods often lack consideration of the varying contribution ratios of different task-specific models to the final merged model. In this paper, we propose Mixup Model Merge (M3), a simple yet effective method inspired by the randomized linear interpolation strategy from the Mixup data augmentation technique. M3 performs randomized linear interpolation in parameter space between two task-specific LLMs, where interpolation coefficients are sampled from a Beta distribution to explore diverse contribution ratios. This controllable randomness allows M3 to outperform standard equal-ratio merging by discovering better contribution ratio combinations. Extensive experiments show that M3 significantly (1) improves merged LLM performance across tasks, (2) enhances out-of-distribution and adversarial robustness, (3) outperforms the positive effects of the sparsification method DARE on model merging and can be further combined with DARE to achieve superior results, and (4) balances exploration efficiency and diversity in contribution ratios by tuning the Beta distribution's shape parameters. The code is provided in the supplementary materials.
- Abstract(参考訳): モデルマージは、追加のトレーニングなしでタスク固有モデルの能力を継承する統一モデルに複数のタスク固有モデルを統合することを目的としている。
既存のモデルマージ手法は、最終的なマージモデルに対する異なるタスク固有モデルの寄与率を考慮していないことが多い。
本稿では,M3(Mixup Model Merge)を提案する。M3(Mixup Model Merge)は,M3(Mixup Data Augmentation Technique)のランダム化線形補間戦略にヒントを得た,シンプルで効果的な手法である。
M3 は2つのタスク固有の LLM 間のパラメータ空間においてランダム化された線形補間を行い、ベータ分布から補間係数をサンプリングして様々な寄与比を探索する。
この制御可能なランダム性により、M3 はより良いコントリビューション比の組み合わせを発見することにより、標準の等比のマージよりも優れる。
実験の結果,M3 は(1) タスク間の統合 LLM 性能を著しく向上し,(2) 分布外および対向ロバスト性の向上,(3) 分割法DARE のモデルマージに対する肯定的な効果を向上し,さらに DARE と組み合わせて優れた結果が得られること,(4) ベータ分布の形状パラメータを調整して,探索効率と寄与比の多様性のバランスをとることが確認された。
コードは補充材料で提供される。
関連論文リスト
- Learning What Matters: Probabilistic Task Selection via Mutual Information for Model Finetuning [20.93518809718398]
混合最適化のための原則的でスケーラブルなフレームワークであるTASKPGMを紹介する。
TASKPGMはマルコフランダム場(MRF)上のエネルギー関数を最小化して連続タスク比を選択する
本手法は, 単純な制約下で閉形式解を導出し, タスク間の代表性と多様性を確実にバランスさせる。
論文 参考訳(メタデータ) (2025-07-16T20:14:55Z) - SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging [60.83635006372403]
textttSE-Mergingは自己拡張型モデルマージフレームワークである。
textttSE-Mergingは、追加のトレーニングなしで動的モデルのマージを実現することを示す。
論文 参考訳(メタデータ) (2025-06-22T18:38:41Z) - NAN: A Training-Free Solution to Coefficient Estimation in Model Merging [61.36020737229637]
最適なマージ重み付けは,各モデルに符号化されたタスク固有情報の量とともにスケールする必要があることを示す。
パラメータノルムの逆数を用いてモデルマージ係数を推定する,単純で効果的な手法であるNANを提案する。
NANはトレーニングフリーで、プラグアンドプレイで、幅広いマージ戦略に適用できる。
論文 参考訳(メタデータ) (2025-05-22T02:46:08Z) - Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - Model Assembly Learning with Heterogeneous Layer Weight Merging [57.8462476398611]
モデル統合のための新しいパラダイムであるモデルアセンブリ学習(MAL)を紹介する。
MALは、様々なモデルのパラメータをオープンエンドモデル動物園に統合し、ベースモデルの能力を高める。
論文 参考訳(メタデータ) (2025-03-27T16:21:53Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。
階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。
コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-05T20:09:59Z) - Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging [35.53877806259048]
本稿では,大規模言語モデル(LLM)におけるモデルマージのための,最初の包括的なベンチマークを確立する。
分析の結果, これまで見過ごされた3H次元間のコラボレーティブ/コンフリクト関係, (ii) 整合性トレードオフのバランスをとる上でのデータ混在アプローチに対するモデルマージの一貫性上の優位性, (iii) 冗長なコンポーネントプルーニングとアウトリー緩和によるパラメータレベルのコンフリクト解決の重要な役割, の3点が明らかになった。
重み付きパラメータの重み付けと、重み付きパラメータに適応したスペーサ適応ランク選択戦略を組み込んだ、重み付け強化タスク特異ベクトルマージ手法であるR-TSVMを提案する。
論文 参考訳(メタデータ) (2025-02-08T11:56:58Z) - Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging [30.38047100067552]
推論機能は、大きな言語モデルにとって重要なフロンティアである。
機能を効率的に補完する1つの方法は、モデルマージである。
本稿では,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T12:47:25Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [35.98702433016698]
InfiFusionは、ドメイン特化言語モデル(LLM)を単一のピボットモデルに統合するために設計された、効率的なトレーニングパイプラインである。
Pairwise Fusion (InfiFusion$_p$) と Unified Fusion (InfiFusion$_u$) の2つの融合戦略を提案する。
InfiFusionは、Qwen-2.5-14B-InstructやPhi-4といった最先端のモデルよりも、11の広く適用されたベンチマークで優れている。
論文 参考訳(メタデータ) (2025-01-06T06:29:55Z) - Non-Uniform Parameter-Wise Model Merging [17.989809995141044]
我々は新しいアプローチであるNon-uniformを導入する。
賢いモデルマージ(英: wise Model Merging、NP Merge)は、各モデルのコントリビューションを学習することでモデルをマージする手法である。
勾配ベースの最適化を使った最終モデルへのパラメータ。
提案手法の有効性を実証的に実証し, 過去の手法よりも優れていた各種アーキテクチャのモデルを複数設定でマージする手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-20T00:05:14Z) - Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation [0.9084344604313794]
本稿では,モデルマージ手法を複雑度の範囲にわたって検討する。
本稿では,効率よく適応的なマージ手法である微分適応マージ(DAM)を導入する。
以上の結果から,モデル類似度が高い場合,モデルソープのような単純な平均化手法でさえ競争力を発揮することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T20:58:29Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。