論文の概要: Expert Merging: Model Merging with Unsupervised Expert Alignment and Importance-Guided Layer Chunking
- arxiv url: http://arxiv.org/abs/2509.25712v1
- Date: Tue, 30 Sep 2025 03:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.998633
- Title: Expert Merging: Model Merging with Unsupervised Expert Alignment and Importance-Guided Layer Chunking
- Title(参考訳): エキスパートマージ - 教師なしのエキスパートアライメントと重要誘導型レイヤチャンキングによるモデルマージ
- Authors: Dengming Zhang, Xiaowen Ma, Zhenliang Ni, Zhenkai Wu, Han Shu, Xin Jiang, Xinghao Chen,
- Abstract要約: エキスパートマージング(Expert Merging)は、ラベルなしキャリブレーションデータを用いて、少数の層係数を学習するトレーニングライト法である。
層間変異をキャプチャするために、Expert Merging++はこの設計を重要誘導チャンクで強化する。
本手法は, 強力なトレーニングフリーおよびトレーニングベースのマージベースラインを超越した手法である。
- 参考スコア(独自算出の注目度): 18.604455802016233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging, which combines multiple domain-specialized experts into a single model, offers a practical path to endow Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) with broad capabilities without the cost of joint training or serving many models. However, training-free methods rely on hand-tuned coefficients, whereas training-based methods primarily align parameters rather than downstream task behavior and typically treat all layers uniformly, ignoring inter-layer heterogeneity. We introduce Expert Merging, a training-light method that learns a small set of layer-wise coefficients using only unlabeled calibration data. The coefficients are optimized to explicitly align the merged model's hidden states and logits with those of the corresponding experts, with a coefficient regularizer for stability and task-weighted losses for controllable trade-offs. To capture inter-layer variation, Expert Merging++ augments this design with importance-guided chunking: a normalized layer-importance metric, derived from learned coefficients, task-vector magnitudes, and parameter counts, allocates more chunk-wise coefficients to high-importance layers while keeping low-importance layers lightweight. The result is a label-free, parameter-efficient, and scalable approach to multi-expert model merging across LLMs and MLLMs. Across MLLM backbones (InternVL and Qwen2-VL) and the LLM backbone (Mistral), our method surpasses strong training-free and training-based merging baselines, with Expert Merging++ delivering further gains and, in some cases, even exceeding supervised Mixture Training. The source code is available at https://github.com/Littleor/ExpertMerging.
- Abstract(参考訳): 複数のドメインの専門家を1つのモデルに組み合わせたモデルマージは、大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)を、共同トレーニングや多数のモデルを提供するコストを伴わずに幅広い能力で実現するための実践的な道を提供する。
しかし、トレーニングなしの手法は手動の係数に依存するが、トレーニングに基づく手法は、主に下流のタスクの振る舞いよりもパラメータを調整し、通常すべての層を均一に扱い、層間不均一性を無視している。
本稿では,未ラベルキャリブレーションデータのみを用いて,少数の層次係数を学習するトレーニングライト手法であるExpert Mergingを紹介する。
係数は、マージされたモデルの隠れ状態とロジットを対応する専門家のものと明確に整合するように最適化され、安定のための係数正則化器と制御可能なトレードオフのためのタスク重み付き損失が与えられる。
学習された係数、タスク-ベクターサイズ、パラメータ数から導かれる正規化レイヤ-重要度メトリックは、低重要度層を軽量に保ちながら、よりチャンクワイドな係数を高重要層に割り当てる。
その結果、ラベルなし、パラメータ効率、スケーラブルなマルチエキスパートモデルによるLLMとMLLM間のマージが実現した。
MLLMバックボーン(InternVLとQwen2-VL)とLLMバックボーン(Mistral)をまたいで、我々の手法は強力なトレーニングフリーでトレーニングベースのマージベースラインを超える。
ソースコードはhttps://github.com/Littleor/ExpertMerging.comで入手できる。
関連論文リスト
- Training-free LLM Merging for Multi-task Learning [74.93025750111019]
Hi-Mergingは、異なる特殊なLSMを単一のモデルに統合するためのトレーニング不要の方法である。
中国語と英語の両方における複数選択および質問応答タスクの実験は、マルチタスク学習におけるHi-Mergingの能力を検証する。
論文 参考訳(メタデータ) (2025-06-14T07:21:11Z) - MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。
2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - Can a Crow Hatch a Falcon? Lineage Matters in Predicting Large Language Model Performance [2.649901869321331]
本稿では,大規模言語モデル間の祖先関係を符号化する線形正規化行列因子化フレームワークを提案する。
マルチホップ親子接続を利用することで、LRMFは従来の行列分解法や協調フィルタリング法より一貫して優れている。
私たちの大規模な調査には、公開可能なHugging Faceモデル2,934、主要なベンチマークで21,000以上のインスタンスが含まれています。
論文 参考訳(メタデータ) (2025-04-28T14:08:45Z) - LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。
階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。
コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-05T20:09:59Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。