論文の概要: Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation
- arxiv url: http://arxiv.org/abs/2502.15434v2
- Date: Fri, 30 May 2025 12:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.229849
- Title: Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation
- Title(参考訳): 混合モデルマージ:ランダム化線形補間によるモデルマージ性能の向上
- Authors: Yue Zhou, Yi Chang, Yuan Wu,
- Abstract要約: モデルマージは、複数のタスク固有のモデルを統合モデルに統合し、タスク固有のモデルの能力を継承することを目的としている。
既存のモデルマージ手法は、最終的なマージモデルに対する異なるタスク固有モデルの寄与率の違いを考慮していないことが多い。
そこで我々はMixup Model Merge(M3)を提案する。これはMixupデータ拡張手法のランダム化線形戦略に着想を得た単純で効果的な手法である。
- 参考スコア(独自算出の注目度): 15.47711837051754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging aims to integrate multiple task-specific models into a unified model that inherits the capabilities of the task-specific models, without additional training. Existing model merging methods often lack consideration of the varying contribution ratios of different task-specific models to the final merged model. In this paper, we propose Mixup Model Merge (M3), a simple yet effective method inspired by the randomized linear interpolation strategy from the Mixup data augmentation technique. M3 performs randomized linear interpolation in parameter space between two task-specific LLMs, where interpolation coefficients are sampled from a Beta distribution to explore diverse contribution ratios. This controllable randomness allows M3 to outperform standard equal-ratio merging by discovering better contribution ratio combinations. Extensive experiments show that M3 significantly (1) improves merged LLM performance across tasks, (2) enhances out-of-distribution and adversarial robustness, and (3) outperforms the positive effects of the sparsification method DARE on model merging and can be further combined with DARE to achieve superior results. By tuning the Beta distribution's shape parameters, (4) M3 balances exploration efficiency and diversity in contribution ratios. The code is available at: https://github.com/MLGroupJLU/MixupModelMerge
- Abstract(参考訳): モデルマージは、追加のトレーニングなしでタスク固有モデルの能力を継承する統一モデルに複数のタスク固有モデルを統合することを目的としている。
既存のモデルマージ手法は、最終的なマージモデルに対する異なるタスク固有モデルの寄与率の違いを考慮していないことが多い。
本稿では,M3(Mixup Model Merge)を提案する。M3(Mixup Model Merge)は,M3(Mixup Data Augmentation Technique)のランダム化線形補間戦略にヒントを得た,シンプルで効果的な手法である。
M3 は2つのタスク固有の LLM 間のパラメータ空間においてランダム化された線形補間を行い、ベータ分布から補間係数をサンプリングして様々な寄与比を探索する。
この制御可能なランダム性により、M3 はより良いコントリビューション比の組み合わせを発見し、標準の等比のマージよりも優れる。
実験の結果,M3 は(1) タスク間の統合 LLM 性能を著しく向上し,(2) 分布外および対向ロバスト性を向上し,(3) モデルマージにおけるスペーシフィケーション法 DARE の正の効果を向上し,さらに DARE と組み合わせて優れた結果を得ることができた。
ベータ分布の形状パラメータを調整することにより、(4)M3は探索効率と寄与比の多様性のバランスをとる。
コードは、https://github.com/MLGroupJLU/MixupModelMergeで入手できる。
関連論文リスト
- Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - Model Assembly Learning with Heterogeneous Layer Weight Merging [57.8462476398611]
モデル統合のための新しいパラダイムであるモデルアセンブリ学習(MAL)を紹介する。
MALは、様々なモデルのパラメータをオープンエンドモデル動物園に統合し、ベースモデルの能力を高める。
論文 参考訳(メタデータ) (2025-03-27T16:21:53Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging [35.53877806259048]
本稿では,大規模言語モデル(LLM)におけるモデルマージのための,最初の包括的なベンチマークを確立する。
分析の結果, これまで見過ごされた3H次元間のコラボレーティブ/コンフリクト関係, (ii) 整合性トレードオフのバランスをとる上でのデータ混在アプローチに対するモデルマージの一貫性上の優位性, (iii) 冗長なコンポーネントプルーニングとアウトリー緩和によるパラメータレベルのコンフリクト解決の重要な役割, の3点が明らかになった。
重み付きパラメータの重み付けと、重み付きパラメータに適応したスペーサ適応ランク選択戦略を組み込んだ、重み付け強化タスク特異ベクトルマージ手法であるR-TSVMを提案する。
論文 参考訳(メタデータ) (2025-02-08T11:56:58Z) - Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging [30.38047100067552]
推論機能は、大きな言語モデルにとって重要なフロンティアである。
機能を効率的に補完する1つの方法は、モデルマージである。
本稿では,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T12:47:25Z) - InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [35.98702433016698]
InfiFusionは、ドメイン特化言語モデル(LLM)を単一のピボットモデルに統合するために設計された、効率的なトレーニングパイプラインである。
Pairwise Fusion (InfiFusion$_p$) と Unified Fusion (InfiFusion$_u$) の2つの融合戦略を提案する。
InfiFusionは、Qwen-2.5-14B-InstructやPhi-4といった最先端のモデルよりも、11の広く適用されたベンチマークで優れている。
論文 参考訳(メタデータ) (2025-01-06T06:29:55Z) - Non-Uniform Parameter-Wise Model Merging [17.989809995141044]
我々は新しいアプローチであるNon-uniformを導入する。
賢いモデルマージ(英: wise Model Merging、NP Merge)は、各モデルのコントリビューションを学習することでモデルをマージする手法である。
勾配ベースの最適化を使った最終モデルへのパラメータ。
提案手法の有効性を実証的に実証し, 過去の手法よりも優れていた各種アーキテクチャのモデルを複数設定でマージする手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-20T00:05:14Z) - Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation [0.9084344604313794]
本稿では,モデルマージ手法を複雑度の範囲にわたって検討する。
本稿では,効率よく適応的なマージ手法である微分適応マージ(DAM)を導入する。
以上の結果から,モデル類似度が高い場合,モデルソープのような単純な平均化手法でさえ競争力を発揮することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T20:58:29Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。