論文の概要: AutoMerge: Search-Based Model Merging Framework for Effective Model Reuse
- arxiv url: http://arxiv.org/abs/2601.22748v1
- Date: Fri, 30 Jan 2026 09:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.347945
- Title: AutoMerge: Search-Based Model Merging Framework for Effective Model Reuse
- Title(参考訳): AutoMerge: 効率的なモデル再利用のための検索ベースのモデルマージフレームワーク
- Authors: You Lu, Jiyang Zhang, Bihuan Chen, Chaofeng Sha, Dingji Wang, Xin Peng,
- Abstract要約: 近年,大規模言語モデル (LLM) の分野において,学習自由なアプローチとしてモデルマージが出現している。
このようなアプローチが他のディープラーニングモデルに効果的に適用できるかどうかを体系的に検討する以前の研究はない。
3つの異なるモデルアーキテクチャ上で5つのモデルマージ手法を評価する。
- 参考スコア(独自算出の注目度): 8.950520457150178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software reuse has long been recognized as a critical and widely studied topic in software engineering, offering substantial benefits in reducing development costs, improving software quality, and enhancing operational efficiency. This paradigm extends into deep learning through model reuse. Recently, model merging has emerged in the domain of large language models (LLMs) as a training-free approach that takes multiple task-specific models with the same architecture as source models and merges them without retraining, enhancing model reuse within LLMs. However, no prior work has systematically investigated whether such an approach can be effectively applied to other deep learning models with different architectures across domains. To bridge this gap, we present the first systematic study that evaluates five model merging techniques on three distinct model architectures across three domains: LLMs, image classification, and autonomous driving. Our findings reveal that directly applying existing model merging techniques leads to highly inconsistent results and falls notably short of their success within LLMs. Moreover, a single model merging technique often fails to handle the heterogeneous structural properties within a model, limiting its applicability to different model architectures across domains. Furthermore, the effectiveness of model merging techniques is highly sensitive to hyperparameter configurations, thereby constraining their potential for broader adoption. Inspired by these insights, we propose AutoMerge, a novel search-based model merging framework that first segments complex models into multiple heterogeneous blocks and then systematically explores the merging space to identify the merging technique and its hyperparameter configuration.
- Abstract(参考訳): ソフトウェア再利用は、長い間、ソフトウェアエンジニアリングにおいて重要かつ広く研究されているトピックとして認識され、開発コストの削減、ソフトウェア品質の改善、運用効率の向上に多大な利益をもたらす。
このパラダイムは、モデルの再利用を通じてディープラーニングに拡張されます。
近年,大規模な言語モデル (LLM) の領域に,ソースモデルと同じアーキテクチャを持つ複数のタスク固有モデルを採用して,再トレーニングなしでマージし,LLM内でのモデル再利用を向上する,トレーニングフリーなアプローチとして,モデルマージが出現している。
しかし、ドメイン間で異なるアーキテクチャを持つ他のディープラーニングモデルに対して、そのようなアプローチが効果的に適用できるかどうかを体系的に検討する以前の研究はない。
このギャップを埋めるために,LLM,画像分類,自律運転という3つの領域にまたがる3つの異なるモデルアーキテクチャ上で,5つのモデルマージ手法を評価する最初の体系的な研究を提案する。
以上の結果から,既存のモデルマージ技術を直接適用することにより,一貫性の低い結果が得られ,LSMにおけるその成功には至らなかったことが判明した。
さらに、単一のモデルマージ技術は、モデル内の不均一な構造的特性を扱うのに失敗することが多く、ドメイン間の異なるモデルアーキテクチャの適用性を制限する。
さらに、モデルマージ手法の有効性は、ハイパーパラメータの設定に非常に敏感であるため、より広範な採用の可能性を制限することができる。
これらの知見にインスパイアされたAutoMergeは,複雑なモデルを複数のヘテロジニアスブロックに分割し,マージ手法とそのハイパーパラメータ構成を特定するために,マージ空間を体系的に探索する新しい検索ベースモデルマージフレームワークである。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - From Task-Specific Models to Unified Systems: A Review of Model Merging Approaches [13.778158813149833]
本稿では、モデルマージ手法の新たな分類法を確立し、異なるアプローチを体系的に比較し、重要な展開の概要を提供する。
この分野での急速な進歩にもかかわらず、最近の進歩と今後の方向性を予測する包括的な分類学と調査はいまだに欠落している。
論文 参考訳(メタデータ) (2025-03-12T02:17:31Z) - A Model Is Not Built By A Single Prompt: LLM-Based Domain Modeling With Question Decomposition [4.123601037699469]
現実世界のドメインモデリングでは、エンジニアは通常複雑なタスクを簡単に解けるサブタスクに分解する。
本稿では,開発者のモデリングプロセスに類似した質問分解によるLLMに基づくドメインモデリング手法を提案する。
予備的な結果から,本手法は単発プロンプトによるプロンプトよりも優れていた。
論文 参考訳(メタデータ) (2024-10-13T14:28:04Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。