論文の概要: Beyond Parameter Arithmetic: Sparse Complementary Fusion for Distribution-Aware Model Merging
- arxiv url: http://arxiv.org/abs/2602.11717v1
- Date: Thu, 12 Feb 2026 08:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.728352
- Title: Beyond Parameter Arithmetic: Sparse Complementary Fusion for Distribution-Aware Model Merging
- Title(参考訳): パラメータ算術を超える:分散型モデル統合のためのスパース補間融合
- Authors: Weihong Lin, Lin Sun, Qilong Shi, Aomufei Yuan, Yuxuan Tian, Zhengyang Wang, Guangxiang Zhao, Xiangzheng Zhang, Tong Yang,
- Abstract要約: 本稿では,スパース・分散対応更新による機能的干渉を明示的に制御する新しいモデル統合フレームワークである,逆KL(SCF-RKL)を用いたスパース補完核融合を提案する。
我々は,SCF-RKLを多種多様なモデルスケールとアーキテクチャで評価し,推論型モデルと命令型モデルの両方を網羅した。
- 参考スコア(独自算出の注目度): 20.429700094073684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging has emerged as a promising paradigm for composing the capabilities of large language models by directly operating in weight space, enabling the integration of specialized models without costly retraining. However, existing merging methods largely rely on parameter-space heuristics, which often introduce severe interference, leading to degraded generalization and unstable generation behaviors such as repetition and incoherent outputs. In this work, we propose Sparse Complementary Fusion with reverse KL (SCF-RKL), a novel model merging framework that explicitly controls functional interference through sparse, distribution-aware updates. Instead of assuming linear additivity in parameter space, SCF-RKL measures the functional divergence between models using reverse Kullback-Leibler divergence and selectively incorporates complementary parameters. This mode-seeking, sparsity-inducing design effectively preserves stable representations while integrating new capabilities. We evaluate SCF-RKL across a wide range of model scales and architectures, covering both reasoning-focused and instruction-tuned models. Extensive experiments on 24 benchmarks spanning advanced reasoning, general reasoning and knowledge, instruction following, and safety demonstrate, vision classification that SCF-RKL consistently outperforms existing model merging methods while maintaining strong generalization and generation stability.
- Abstract(参考訳): モデルマージは、重量空間で直接操作することで、大きな言語モデルの能力を構成するための有望なパラダイムとして現れており、コストのかかる再トレーニングなしに、特別なモデルの統合を可能にしている。
しかし、既存のマージング法はパラメータ空間のヒューリスティックスに大きく依存しており、しばしば深刻な干渉が生じ、一般化の劣化と繰り返しや不整合出力のような不安定な生成挙動を引き起こす。
本研究では,分散対応更新による関数的干渉を明示的に制御する新しいモデル統合フレームワークである,逆KL(SCF-RKL)を用いたスパース補完核融合を提案する。
SCF-RKL はパラメータ空間における線形加法則を仮定する代わりに、逆カルバック・リーブラ分散を用いてモデル間の関数的発散を測定し、補的パラメータを選択的に組み込む。
このモード検索、疎性誘導設計は、新しい機能を統合しながら、安定した表現を効果的に保存する。
我々は,SCF-RKLを多種多様なモデルスケールとアーキテクチャで評価し,推論型モデルと命令型モデルの両方を網羅した。
SCF-RKLは強力な一般化と生成安定性を維持しつつ、既存のモデルマージ手法を一貫して上回っている。
関連論文リスト
- Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。
ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文 参考訳(メタデータ) (2026-02-03T08:15:57Z) - Model Merging via Multi-Teacher Knowledge Distillation [11.543771846135021]
モデルマージ設定に特化して、新しい平坦性を考慮したPAC-Bayes一般化を導入する。
我々は,少ないラベルのないデータに基づいて,マルチ教師の知識蒸留としてマージするモデルを構築した。
我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
論文 参考訳(メタデータ) (2025-12-24T17:10:44Z) - From Coefficients to Directions: Rethinking Model Merging with Directional Alignment [66.99062575537555]
パラメータと特徴空間の両面に一貫した方向構造を整列する,方向アライメント付きemphMerging(method)という統一幾何学的枠組みを導入する。
分析の結果、指向性アライメントは構造的コヒーレンスを改善し、ベンチマーク、モデルスケール、タスク構成にまたがる広範な実験により、我々のアプローチの有効性がさらに検証された。
論文 参考訳(メタデータ) (2025-11-29T08:40:58Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。