論文の概要: ResMerge: Residual-based Spectral Merging of Large Language Models
- arxiv url: http://arxiv.org/abs/2606.02252v1
- Date: Mon, 01 Jun 2026 13:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.180171
- Title: ResMerge: Residual-based Spectral Merging of Large Language Models
- Title(参考訳): ResMerge: 大規模言語モデルの残留型スペクトルマージ
- Authors: Yandu Sun, Zhiyan Hou, Haokai Ma, Yuheng Jia, Junfeng Fang, Haiyun Guo, Hongyan An, weizhen wang, Jinqiao Wang,
- Abstract要約: 本稿では,RL専門家のための残留スペクトルマージフレームワークResMergeを提案する。
本稿では,RL専門家のための残留スペクトルマージフレームワークResMergeを提案する。
- 参考スコア(独自算出の注目度): 52.65011413018957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging offers a training-free way to combine multiple post-trained expert models, but merging experts obtained through reinforcement learning (RL) remains challenging. Existing spectral merging methods often assume that leading singular directions contain the main task signal, while lower-energy residual components can be compressed, selected, or attenuated to reduce interference. We find that this assumption does not hold for RL task vectors: after decomposing each task vector into a leading spectral head and a residual component, both parts can independently recover substantial behavior knowledge, while exhibiting different merging properties. The head is highly concentrated and informative but more prone to sharp cross-expert conflicts, whereas the residual component is more dispersed and provides a more stable basis for aggregation. Based on this observation, we propose ResMerge, a residual-based spectral merging framework for RL experts. ResMerge first constructs a stable residual backbone with Spherical Residual Consensus Adaptation, which estimates a reliability-weighted consensus direction on the Frobenius sphere. It then reintroduces leading-head information through a Lightweight Head Correction module gated by positive cross-expert agreement. Experiments across multiple RL expert groups and capability domains show that ResMerge better preserves expert capabilities than representative task-vector and spectral merging baselines. The implementation of ResMerge is publicly available at https://github.com/sunyd0303-cpu/ResMerge-release.
- Abstract(参考訳): モデルマージは、訓練後の複数のエキスパートモデルを組み合わせるためのトレーニング不要の方法を提供するが、強化学習(RL)を通じて得られたエキスパートをマージすることは、依然として困難である。
既存のスペクトルマージ法では、先導特異方向が主タスク信号を含んでいると仮定することが多いが、低エネルギー残留成分は、干渉を減らすために圧縮、選択、減衰することができる。
この仮定は、各タスクベクトルを主スペクトルヘッドと残留成分に分解した後、それぞれが異なるマージ特性を示しながら、独立した振る舞いの知識を回復することができる。
頭部は高度に集中しており、情報的であるが、鋭いクロスエキスパートの衝突が起こる傾向にあるが、残留成分はより分散しており、凝集のより安定した基盤を提供する。
本稿では,RL専門家のための残留スペクトルマージフレームワークResMergeを提案する。
ResMerge は Spherical Residual Consensus Adaptation を用いて安定な残留バックボーンを構築し、フロベニウス球面上の信頼性重み付きコンセンサス方向を推定する。
その後、前頭情報を再導入し、負のクロスエキスパート合意によってゲートされた軽量ヘッド補正モジュールを経由する。
複数のRL専門家グループと機能ドメインにわたる実験では、ResMergeは、典型的なタスクベクタやスペクトルマージベースラインよりも、専門家の能力をよりよく保存している。
ResMergeの実装はhttps://github.com/sunyd0303-cpu/ResMerge-releaseで公開されている。
関連論文リスト
- RADD: Retrieval-Augmented Discrete Diffusion for Multi-Modal Knowledge Graph Completion [14.144464555343385]
本稿では,MMKGCの検索と再ランク付けを分離するRetrieval-Augmented Discrete Diffusionフレームワークを提案する。
関係対応マルチモーダルKGEレトリバーは、グローバルレトリバーと蒸留教師の両方として機能し、条件付き離散デノイザは、再ランクのためのショートリストレベルのエンティティアイデンティティ生成を行う。
論文 参考訳(メタデータ) (2026-04-28T14:21:03Z) - Towards Adaptive Continual Model Merging via Manifold-Aware Expert Evolution [33.44708543696699]
MADE-ITは、多様体幾何学における本質的な専門家表現を基礎にして、専門家の管理と活性化をオーケストレーションする。
実験により、MADE-ITは、長い水平およびシャッフルされたタスクシーケンスの精度と堅牢性において、強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-04-24T11:35:53Z) - DR-MMSearchAgent: Deepening Reasoning in Multimodal Search Agents [24.61813749877376]
Deepening Reasoning MMSearchAgentは、バッチ全体におけるロールアウトトラジェクトリ全体のメリット信号を導出する。
ガウスの区別された報酬は 動的に 相互作用耐性を校正するために使われる
FVQAテストでMMSearch-R1を8.4$%上回り、最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-04-21T09:28:34Z) - Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis [16.739617199649615]
効率改善から機能拡張を分離する指標であるPASS@(k,T)を紹介する。
我々の主な発見は、静的推論結果とは対照的に、ツール利用RLは機能境界を真に拡大するということです。
一致したトレーニングデータの下では、教師付き微調整は、同じ構成上の境界を回帰させ、因果因子として自己指向的な探索を分離する。
論文 参考訳(メタデータ) (2026-04-16T11:06:19Z) - A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Real-Aware Residual Model Merging for Deepfake Detection [29.454462278073063]
ディープフェイクジェネレータは急速に進化し、徹底的なデータ収集と反復的な再訓練が不可能になる。
本稿では,Real-Aware Residual Model Merging (R$2$M)を提案する。
R$2$M はタスクベクトルの低ランク因数分解を通じて共有リアル成分を推定し、各専門家をリアル整列部分とフェイク残基に分解し、階層的なランク切り込みで残基を分解し、タスク毎のノルムマッチングでそれらを集約する。
論文 参考訳(メタデータ) (2025-09-29T07:10:03Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [88.55095746156428]
Retrieval-augmented Generation (RAG) は、外部知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントで構成されている。
本稿では,複数コンポーネントからなる複雑なRAGパイプラインを多エージェント協調作業として扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。