論文の概要: Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories
- arxiv url: http://arxiv.org/abs/2509.12951v1
- Date: Tue, 16 Sep 2025 10:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.045298
- Title: Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories
- Title(参考訳): 大規模モデルリポジトリを用いた言語モデル・アズ・ア・サービスのためのブラックボックスモデルマージ
- Authors: Shilian Chen, Jie Zhou, Tianyu Huai, Yujiang Lu, Junsong Li, Bihao Zhan, Qianjun Pan, Yutao Yang, Xin Li, Qin Chen, Hang Yan, Liang He,
- Abstract要約: 進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。
提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組合せ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。
提案手法は,様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 21.899117703417517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging refers to the process of integrating multiple distinct models into a unified model that preserves and combines the strengths and capabilities of the individual models. Most existing approaches rely on task vectors to combine models, typically under the assumption that model parameters are accessible. However, for extremely large language models (LLMs) such as GPT-4, which are often provided solely as black-box services through API interfaces (Language-Model-as-a-Service), model weights are not available to end users. This presents a significant challenge, which we refer to as black-box model merging (BMM) with massive LLMs. To address this challenge, we propose a derivative-free optimization framework based on the evolutionary algorithm (Evo-Merging) that enables effective model merging using only inference-time API queries. Our method consists of two key components: (1) sparsity-based denoising, designed to identify and filter out irrelevant or redundant information across models, and (2) sign-aware scaling, which dynamically computes optimal combination weights for the relevant models based on their performance. We also provide a formal justification, along with a theoretical analysis, for our asymmetric sparsification. Extensive experimental evaluations demonstrate that our approach achieves state-of-the-art results on a range of tasks, significantly outperforming existing strong baselines.
- Abstract(参考訳): モデルマージ(英: Model merging)とは、複数の異なるモデルを統一されたモデルに統合し、個々のモデルの強みと能力を保存・結合するプロセスを指す。
既存のアプローチの多くは、モデルパラメータがアクセス可能であるという前提の下で、モデルを組み合わせるためにタスクベクトルに依存している。
しかし、APIインターフェース(Language-Model-as-a-Service)を通じてブラックボックスサービスとしてのみ提供されるGPT-4のような非常に大きな言語モデル(LLM)では、モデルの重み付けはエンドユーザには利用できない。
これは、大規模なLLMとブラックボックスモデルマージ(BMM)と呼ばれる重要な課題である。
この課題に対処するために、推論時APIクエリのみを用いて効果的なモデルマージを可能にする進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。
提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組み合わせ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。
我々はまた、我々の非対称なスパーシフィケーションのための公式な正当化と理論解析も提供する。
大規模な実験により,本手法は様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回る結果となった。
関連論文リスト
- PSO-Merging: Merging Models Based on Particle Swarm Optimization [36.641774346671504]
我々は、Particle Swarm Optimization(PSO)に基づく新しいデータ駆動マージ手法であるPSO-Mergingを紹介する。
提案手法では,素粒子群を事前学習モデル,エキスパートモデル,スパシファイドエキスパートモデルで初期化する。
次に、複数の繰り返しを行い、最終的な大域的最適粒子がマージモデルとして機能する。
論文 参考訳(メタデータ) (2025-08-27T12:52:36Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Pareto Merging: Multi-Objective Optimization for Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージ問題を提案する。
提案したモデルマージにより,多様なトレードオフモデルが生成され,最先端のマージベースラインと比較して高いテスト精度が得られることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:41:14Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。