論文の概要: Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging
- arxiv url: http://arxiv.org/abs/2502.04030v1
- Date: Thu, 06 Feb 2025 12:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:46.573945
- Title: Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging
- Title(参考訳): 素晴らしいことに、私は自分自身でマージする: 自動モデルマージのためのマルチフィデリティフレームワーク
- Authors: Guinan Su, Jonas Geiping,
- Abstract要約: 推論機能は、大きな言語モデルにとって重要なフロンティアである。
機能を効率的に補完する1つの方法は、モデルマージである。
本稿では,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.38047100067552
- License:
- Abstract: Reasoning capabilities represent a critical frontier for large language models (LLMs), but developing them requires extensive proprietary datasets and computational resources. One way to efficiently supplement capabilities with is by model merging, which offers a promising alternative by combining multiple models without retraining. However, current merging approaches rely on manually-designed strategies for merging hyperparameters, limiting the exploration of potential model combinations and requiring significant human effort. We propose an Automated Model Merging Framework that enables fine-grained exploration of merging strategies while reducing costs through multi-fidelity approximations. We support both single and multi-objective optimization and introduce two novel search spaces: layerwise fusion (LFS) and depth-wise integration (DIS). Evaluating across a number of benchmarks, we find that the search autonomously finds 1) Merges that further boost single-objective performance, even on tasks the model has already been finetuned on, and 2) Merges that optimize multi-objective frontiers across tasks. Effective merges are found with limited compute, e.g. within less than 500 search steps.
- Abstract(参考訳): 推論機能は、大規模言語モデル(LLM)にとって重要なフロンティアであるが、それらを開発するには広範なプロプライエタリなデータセットと計算資源が必要である。
モデルのマージによって、複数のモデルを再トレーニングせずに組み合わせることで、有望な代替手段を提供する。
しかしながら、現在のマージアプローチは、ハイパーパラメータをマージするための手作業で設計された戦略に依存しており、潜在的なモデルの組み合わせの探索を制限し、多大な人的努力を必要としている。
本稿では,マルチフィデリティ近似によるコスト削減を図りつつ,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
単目的最適化と多目的最適化の両方をサポートし,レイヤワイド・フュージョン(LFS)とディープワイド・ワイド・インテグレーション(DIS)という2つの新しい検索空間を導入する。
複数のベンチマークで評価すると、検索が自律的に見つかることが分かる
1)単一目的のパフォーマンスをさらに向上させるマージは、モデルがすでに微調整済みのタスクでも可能であり、
2)タスク間の多目的フロンティアを最適化するマージ。
効果的なマージは、例えば500段階未満の探索ステップで、限られた計算量で見つかる。
関連論文リスト
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。
我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-02-15T09:47:50Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation [0.9084344604313794]
本稿では,モデルマージ手法を複雑度の範囲にわたって検討する。
本稿では,効率よく適応的なマージ手法である微分適応マージ(DAM)を導入する。
以上の結果から,モデル類似度が高い場合,モデルソープのような単純な平均化手法でさえ競争力を発揮することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T20:58:29Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Layer-wise Model Merging for Unsupervised Domain Adaptation in Segmentation Tasks [3.776249047528669]
フリーでトレーニングされたモデルの豊富さを活用して、モデルマージにコストフリーのアプローチを導入します。
初期レイヤを統一しながら、タスク固有の最終レイヤの特異性を維持することを目的としている。
このアプローチは、パフォーマンスを高めるために不可欠な、すべてのレイヤにおけるパラメータの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-24T07:19:30Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization [16.54335356612006]
モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。
既存の方法は人間の知識や直観に大きく依存している。
限られた評価において、優れたモデルマージ構成を得るのは難しいです。
論文 参考訳(メタデータ) (2024-06-29T16:34:23Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。