論文の概要: Bayesian Model Merging
- arxiv url: http://arxiv.org/abs/2605.12843v1
- Date: Wed, 13 May 2026 00:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.738467
- Title: Bayesian Model Merging
- Title(参考訳): ベイジアンモデルマージ
- Authors: Kaiyang Li, Shaobo Han, Qing Su, Shihao Ji,
- Abstract要約: モデルマージは、複数のタスク固有のエキスパートモデルを、共同トレーニングなしで単一のモデルに結合することを目的としている。
本稿では,プラグインとプレイの双方向最適化フレームワークであるBayesian Model Merging (BMM)を紹介する。
BMMは、すべてのプラグアンドプレイアンカーベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 17.887004278413915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging aims to combine multiple task-specific expert models into a single model without joint retraining, offering a practical alternative to multi-task learning when data access or computational budget is limited. Existing methods, however, face two key limitations: (1) they overlook the valuable inductive bias of strong anchor models and estimate the merged weights from scratch, and (2) they rely on a shared hyperparameter setting across different modules of the network, lacking a global optimization strategy. This paper introduces Bayesian Model Merging (BMM), a plug-and-play bi-level optimization framework, where the inner level formulates the model merging as an activation-based Bayesian regression under a strong prior induced by an anchor model, yielding an efficient closed-form solution; and the outer level leverages a Bayesian optimization procedure to search module-specific hyperparameters globally based on a small validation set. Furthermore, we reveal a key alignment between activation statistics and task vectors, enabling us to derive a data-free variant of BMM that estimates the Gram matrix for regression without any auxiliary data. Across extensive benchmarks, including up to 20-task merging in vision and 5-task merging in language, BMM consistently outperforms all plug-and-play anchor baselines (e.g., TA, WUDI-Merging, and TSV). In particular, on the ViT-L/14 benchmark for 8-task merging, a single merged model reaches 95.1, closely matching the average performance of eight task-specific experts (95.8).
- Abstract(参考訳): モデルマージは、データアクセスや計算予算が限られている場合に、マルチタスク学習の実用的な代替手段を提供する。
しかし、既存の手法では、(1)強アンカーモデルの価値ある帰納バイアスを見落とし、融合重量をスクラッチから推定し、(2)ネットワークの異なるモジュール間での共有ハイパーパラメータ設定に依存し、グローバルな最適化戦略が欠如している。
内部レベルは、アクティベーションベースのベイズ回帰として、アンカーモデルによって強く誘導され、効率的なクローズド・フォーム・ソリューションが得られ、外部レベルは、モジュール固有のハイパーパラメータを世界規模で探索するためにベイズ最適化手法を利用する。
さらに,アクティベーション統計量とタスクベクトルとの間の重要な整合性を明らかにし,補助データなしで回帰のグラム行列を推定するBMMのデータフリーな変種を導出することを可能にする。
最大20タスクのマージ、言語での5タスクマージを含む広範囲なベンチマークを含む、BMMは、プラグインとプレイのアンカーベースライン(例えば、TA、WUDI-Merging、TSV)を一貫して上回っている。
特に8タスクマージのViT-L/14ベンチマークでは、単一のマージモデルが95.1に達し、8つのタスク固有の専門家(95.8)の平均的なパフォーマンスと密接に一致している。
関連論文リスト
- Fine-Grained Model Merging via Modular Expert Recombination [33.253051407398836]
本稿では,MERGEを提案する。MERGEはコンポーネントワイドなモデルマージと,インプットアウェアでオンデマンドなモジュール再結合を推論時に実現する手法である。
MERGEは、クロスタスク性能とストレージ効率のバランスをとる双方向最適化問題として、コンポーネントワイズマージを定式化している。
MERGEは、強いベースラインを一貫して上回り、効果的に一般化することを示す。
論文 参考訳(メタデータ) (2026-02-06T09:55:56Z) - Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MergeBench: A Benchmark for Merging Domain-Specialized LLMs [25.333088749417414]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。
2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。