論文の概要: SimMerge: Learning to Select Merge Operators from Similarity Signals
- arxiv url: http://arxiv.org/abs/2601.09473v1
- Date: Wed, 14 Jan 2026 13:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.413811
- Title: SimMerge: Learning to Select Merge Operators from Similarity Signals
- Title(参考訳): SimMerge: 類似信号からマージオペレータを選択することを学ぶ
- Authors: Oliver Bolton, Aakanksha, Arash Ahmadian, Sara Hooker, Marzieh Fadaee, Beyza Ermis,
- Abstract要約: モデルマージにより、複数の大規模言語モデル(LLM)を単一のモデルに統合し、パフォーマンスを維持できる。
本稿では,モデル間のコストのかかるタスクに依存しない類似性信号を用いて,最適なマージを選択する,没入型予測マージ選択手法を提案する。
その結果,チェックポイントカタログが大きく,評価予算が厳しい場合には,マージ方法の学習が,拡張性のあるモデル構成への実践的な経路であることが示唆された。
- 参考スコア(独自算出の注目度): 32.157558993834414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging enables multiple large language models (LLMs) to be combined into a single model while preserving performance. This makes it a valuable tool in LLM development, offering a competitive alternative to multi-task training. However, merging can be difficult at scale, as successful merging requires choosing the right merge operator, selecting the right models, and merging them in the right order. This often leads researchers to run expensive merge-and-evaluate searches to select the best merge. In this work, we provide an alternative by introducing \simmerge{}, \emph{a predictive merge-selection method} that selects the best merge using inexpensive, task-agnostic similarity signals between models. From a small set of unlabeled probes, we compute functional and structural features and use them to predict the performance of a given 2-way merge. Using these predictions, \simmerge{} selects the best merge operator, the subset of models to merge, and the merge order, eliminating the expensive merge-and-evaluate loop. We demonstrate that we surpass standard merge-operator performance on 2-way merges of 7B-parameter LLMs, and that \simmerge{} generalizes to multi-way merges and 111B-parameter LLM merges without retraining. Additionally, we present a bandit variant that supports adding new tasks, models, and operators on the fly. Our results suggest that learning how to merge is a practical route to scalable model composition when checkpoint catalogs are large and evaluation budgets are tight.
- Abstract(参考訳): モデルマージにより、複数の大規模言語モデル(LLM)を単一のモデルに統合し、パフォーマンスを維持できる。
これにより、LLM開発において貴重なツールとなり、マルチタスクトレーニングの競争力のある代替手段を提供する。
しかし、マージを成功させるには、適切なマージ演算子を選択し、適切なモデルを選択し、それらを正しい順序でマージする必要があるため、大規模なマージは困難である。
しばしば研究者は、最高のマージを選択するために、高価なマージと評価を行う。
本研究では,モデル間のタスク非依存の類似性信号を用いて最適なマージを選択する,‘simmerge{}, \emph{a predictive merge-selection}’を導入することで,代替手段を提供する。
ラベル付けされていない少数のプローブから関数的特徴と構造的特徴を計算し、与えられた2方向マージの性能を予測する。
これらの予測を用いて、 \simmerge{} は最良のマージ演算子、マージするモデルのサブセット、およびマージ順序を選択し、高価なマージ・アンド・評価ループを排除する。
我々は、7Bパラメータの2方向マージにおける標準的なマージ演算性能を超越し、111Bパラメータのマージをリトレーニングすることなく、マルチウェイマージと111Bパラメータのマージに一般化することを実証した。
さらに,新たなタスクやモデル,演算子の追加をサポートするバンディットのバリエーションも提示する。
その結果,チェックポイントカタログが大きく,評価予算が厳しい場合には,マージ方法の学習が,拡張性のあるモデル構成への実践的な経路であることが示唆された。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation [15.47711837051754]
モデルマージは、複数のタスク固有のモデルを統合モデルに統合し、タスク固有のモデルの能力を継承することを目的としている。
既存のモデルマージ手法は、最終的なマージモデルに対する異なるタスク固有モデルの寄与率の違いを考慮していないことが多い。
そこで我々はMixup Model Merge(M3)を提案する。これはMixupデータ拡張手法のランダム化線形戦略に着想を得た単純で効果的な手法である。
論文 参考訳(メタデータ) (2025-02-21T13:01:26Z) - Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging [30.38047100067552]
推論機能は、大きな言語モデルにとって重要なフロンティアである。
機能を効率的に補完する1つの方法は、モデルマージである。
本稿では,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T12:47:25Z) - If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs [48.95875673503714]
多くのタスクで訓練された"ジェネラリスト"モデルをマージすることを研究する。
提案アルゴリズムは,各チェックポイントの重みを線形結合で調整し,最適モデルを生成する。
良いマージは、ほとんどすべてのチェックポイントとゼロでない重みを含む傾向があり、一見して悪い初期チェックポイントでさえ、良い最終マージに寄与することを示している。
論文 参考訳(メタデータ) (2024-12-05T13:12:51Z) - Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。
我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。
共役勾配法は閉形式解より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-07T14:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。