論文の概要: Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories
- arxiv url: http://arxiv.org/abs/2509.12951v1
- Date: Tue, 16 Sep 2025 10:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.045298
- Title: Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories
- Title(参考訳): 大規模モデルリポジトリを用いた言語モデル・アズ・ア・サービスのためのブラックボックスモデルマージ
- Authors: Shilian Chen, Jie Zhou, Tianyu Huai, Yujiang Lu, Junsong Li, Bihao Zhan, Qianjun Pan, Yutao Yang, Xin Li, Qin Chen, Hang Yan, Liang He,
- Abstract要約: 進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。
提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組合せ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。
提案手法は,様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 21.899117703417517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging refers to the process of integrating multiple distinct models into a unified model that preserves and combines the strengths and capabilities of the individual models. Most existing approaches rely on task vectors to combine models, typically under the assumption that model parameters are accessible. However, for extremely large language models (LLMs) such as GPT-4, which are often provided solely as black-box services through API interfaces (Language-Model-as-a-Service), model weights are not available to end users. This presents a significant challenge, which we refer to as black-box model merging (BMM) with massive LLMs. To address this challenge, we propose a derivative-free optimization framework based on the evolutionary algorithm (Evo-Merging) that enables effective model merging using only inference-time API queries. Our method consists of two key components: (1) sparsity-based denoising, designed to identify and filter out irrelevant or redundant information across models, and (2) sign-aware scaling, which dynamically computes optimal combination weights for the relevant models based on their performance. We also provide a formal justification, along with a theoretical analysis, for our asymmetric sparsification. Extensive experimental evaluations demonstrate that our approach achieves state-of-the-art results on a range of tasks, significantly outperforming existing strong baselines.
- Abstract(参考訳): モデルマージ(英: Model merging)とは、複数の異なるモデルを統一されたモデルに統合し、個々のモデルの強みと能力を保存・結合するプロセスを指す。
既存のアプローチの多くは、モデルパラメータがアクセス可能であるという前提の下で、モデルを組み合わせるためにタスクベクトルに依存している。
しかし、APIインターフェース(Language-Model-as-a-Service)を通じてブラックボックスサービスとしてのみ提供されるGPT-4のような非常に大きな言語モデル(LLM)では、モデルの重み付けはエンドユーザには利用できない。
これは、大規模なLLMとブラックボックスモデルマージ(BMM)と呼ばれる重要な課題である。
この課題に対処するために、推論時APIクエリのみを用いて効果的なモデルマージを可能にする進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。
提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組み合わせ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。
我々はまた、我々の非対称なスパーシフィケーションのための公式な正当化と理論解析も提供する。
大規模な実験により,本手法は様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回る結果となった。
関連論文リスト
- Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - PSO-Merging: Merging Models Based on Particle Swarm Optimization [36.641774346671504]
我々は、Particle Swarm Optimization(PSO)に基づく新しいデータ駆動マージ手法であるPSO-Mergingを紹介する。
提案手法では,素粒子群を事前学習モデル,エキスパートモデル,スパシファイドエキスパートモデルで初期化する。
次に、複数の繰り返しを行い、最終的な大域的最適粒子がマージモデルとして機能する。
論文 参考訳(メタデータ) (2025-08-27T12:52:36Z) - Navigating the Accuracy-Size Trade-Off with Flexible Model Merging [15.497612580389479]
我々は、新しいデータフリーモデルマージフレームワークFlexMergeを提案する。
異なる大きさのマージモデルを柔軟に生成し、単一のマージモデルから完全なスペクトルにまたがり、すべての微調整モデルを保持する。
FlexMergeを使って、異なるアルゴリズムの精度と大きさのトレードオフを体系的に特徴づける。
論文 参考訳(メタデータ) (2025-05-29T07:50:32Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Pareto Merging: Multi-Objective Optimization for Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージ問題を提案する。
提案したモデルマージにより,多様なトレードオフモデルが生成され,最先端のマージベースラインと比較して高いテスト精度が得られることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:41:14Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。