論文の概要: Activation-Guided Consensus Merging for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14009v1
- Date: Tue, 20 May 2025 07:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.84436
- Title: Activation-Guided Consensus Merging for Large Language Models
- Title(参考訳): 大規模言語モデルのためのアクティベーションガイド型コンセンサスマージ
- Authors: Yuxuan Yao, Shuqi Liu, Zehua Liu, Qintong Li, Mingyang Liu, Xiongwei Han, Zhijiang Guo, Han Wu, Linqi Song,
- Abstract要約: textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。
L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 25.68958388022476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has increasingly focused on reconciling the reasoning capabilities of System 2 with the efficiency of System 1. While existing training-based and prompt-based approaches face significant challenges in terms of efficiency and stability, model merging emerges as a promising strategy to integrate the diverse capabilities of different Large Language Models (LLMs) into a unified model. However, conventional model merging methods often assume uniform importance across layers, overlooking the functional heterogeneity inherent in neural components. To address this limitation, we propose \textbf{A}ctivation-Guided \textbf{C}onsensus \textbf{M}erging (\textbf{ACM}), a plug-and-play merging framework that determines layer-specific merging coefficients based on mutual information between activations of pre-trained and fine-tuned models. ACM effectively preserves task-specific capabilities without requiring gradient computations or additional training. Extensive experiments on Long-to-Short (L2S) and general merging tasks demonstrate that ACM consistently outperforms all baseline methods. For instance, in the case of Qwen-7B models, TIES-Merging equipped with ACM achieves a \textbf{55.3\%} reduction in response length while simultaneously improving reasoning accuracy by \textbf{1.3} points. We submit the code with the paper for reproducibility, and it will be publicly available.
- Abstract(参考訳): 近年,システム2の推論能力とシステム1の効率の整合性に注目が集まっている。
既存のトレーニングベースとプロンプトベースのアプローチは、効率と安定性の観点から大きな課題に直面していますが、モデルマージは、さまざまな大規模言語モデル(LLM)の多様な機能を統一モデルに統合するための有望な戦略として現れます。
しかしながら、従来のモデルマージ手法は、神経成分に固有の機能的不均一性を見越して、層間における均一な重要性を仮定することが多い。
この制限に対処するために、事前訓練されたモデルと微調整されたモデルのアクティベーション間の相互情報に基づいて、層固有のマージ係数を決定するプラグアンドプレイマージフレームワークである \textbf{A}ctivation-Guided \textbf{C}onsensus \textbf{M}erging (\textbf{ACM})を提案する。
ACMは、勾配計算や追加のトレーニングを必要とせずに、タスク固有の機能を効果的に維持する。
L2S(Long-to-Short)と一般的なマージタスクに関する大規模な実験は、ACMが全てのベースライン法を一貫して上回ることを示した。
例えば、Qwen-7B モデルの場合、ACM を搭載した TIES-Merging は、応答長の \textbf{55.3\%} 削減を実現し、同時に \textbf{1.3} ポイントによる推論精度を向上させる。
我々は再現性のためにそのコードを提出し、公開します。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts [8.259321830040204]
本稿では,モダリティの欠如とOF-Distribution(OOD)データの両方を同時に扱うための新しいフレームワークを提案する。
CIDerはMSSD(Model-Specific Self-Distillation)モジュールとMACI(Model-Agnostic Causal Inference)モジュールという2つの重要なコンポーネントを統合している。
実験の結果、CIDerはRMFMとOODの両方のシナリオでロバストな性能を示し、パラメータは少なく、最先端の手法に比べて訓練が速い。
論文 参考訳(メタデータ) (2025-06-12T07:58:17Z) - MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
モデルマージを大規模に評価するための総合評価スイートであるMergeBenchを紹介する。
MergeBenchは、2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルを構築している。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [4.429189958406034]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。
大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。
いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-17T14:07:11Z) - Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities [69.26544016976396]
我々は、新しいモダリティを学ぶための追加能力の源として、Mixture-of-Experts(MoEs)内の冗長性を利用する。
我々は、新しいモダリティのトークンのみに低ランク適応を適用することで、オリジナルの言語生成能力を保ちます。
論文 参考訳(メタデータ) (2025-03-28T15:21:24Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging [17.038807261969033]
Long-to-Short (L2S) 推論は推論深度と実用効率のバランスをとることを目的としている。
モデルマージは、System 1モデルの迅速な思考能力とSystem 2モデルの方法論的推論を統合することで、コスト効率が高く堅牢な代替手段を提供する。
実験の結果,モデルマージにより平均応答長を最大55%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-26T15:34:37Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。