論文の概要: Behavior Knowledge Merge in Reinforced Agentic Models
- arxiv url: http://arxiv.org/abs/2601.13572v1
- Date: Tue, 20 Jan 2026 03:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.147057
- Title: Behavior Knowledge Merge in Reinforced Agentic Models
- Title(参考訳): 強化エージェントモデルにおける行動知識の融合
- Authors: Xiangchi Yuan, Dachuan Shi, Chunhui Zhang, Zheyuan Liu, Shenglong Yao, Soroush Vosoughi, Wenke Lee,
- Abstract要約: 強化学習はポストトレーニングの中心であり、特に特別な推論行動を必要とするエージェントモデルにとって重要である。
既存のマージ手法は教師付き微調整(SFT)のために設計されており、RL学習エージェントモデル上でタスク固有の機能を維持するのに最適である。
本稿では,RL学習エージェントモデル用に明示的に設計された分散対応エージェントマージフレームワークであるReinforced Agent Merging (RAM)を提案する。
- 参考スコア(独自算出の注目度): 48.89546963456286
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning (RL) is central to post-training, particularly for agentic models that require specialized reasoning behaviors. In this setting, model merging offers a practical mechanism for integrating multiple RL-trained agents from different tasks into a single generalist model. However, existing merging methods are designed for supervised fine-tuning (SFT), and they are suboptimal to preserve task-specific capabilities on RL-trained agentic models. The root is a task-vector mismatch between RL and SFT: on-policy RL induces task vectors that are highly sparse and heterogeneous, whereas SFT-style merging implicitly assumes dense and globally comparable task vectors. When standard global averaging is applied under this mismatch, RL's non-overlapping task vectors that encode critical task-specific behaviors are reduced and parameter updates are diluted. To address this issue, we propose Reinforced Agent Merging (RAM), a distribution-aware merging framework explicitly designed for RL-trained agentic models. RAM disentangles shared and task-specific unique parameter updates, averaging shared components while selectively preserving and rescaling unique ones to counteract parameter update dilution. Experiments across multiple agent domains and model architectures demonstrate that RAM not only surpasses merging baselines, but also unlocks synergistic potential among agents to achieve performance superior to that of specialized agents in their domains.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、特に特別な推論行動を必要とするエージェントモデルにおいて、ポストトレーニングの中心である。
この設定において、モデルマージは、異なるタスクから複数のRL訓練エージェントを単一のジェネラリストモデルに統合する実用的なメカニズムを提供する。
しかし、既存のマージ手法は教師付き微調整(SFT)のために設計されており、RL学習エージェントモデルにおけるタスク固有の機能を維持するのに最適である。
根は RL と SFT の間のタスクベクトルのミスマッチである: オンライン RL は高度にスパースで不均一なタスクベクトルを誘導するが、SFT スタイルのマージは暗黙的に高密度で広範に匹敵するタスクベクトルを仮定する。
このミスマッチの下で、標準的なグローバル平均化を適用すると、重要なタスク固有の振る舞いをエンコードするRLの非重複タスクベクトルが減少し、パラメータ更新が希薄になる。
この問題に対処するために,RL学習エージェントモデル用に明示的に設計された分散対応エージェントマージフレームワークであるReinforced Agent Merging (RAM)を提案する。
RAMは共有パラメータとタスク固有のユニークなパラメータの更新を分離し、共有コンポーネントを平均化し、ユニークなコンポーネントを選択的に保存し、再スケーリングしてパラメータの更新希釈に対処する。
複数のエージェントドメインとモデルアーキテクチャにまたがる実験では、RAMはマージベースラインを超えるだけでなく、エージェント間の相乗的ポテンシャルを解放し、ドメイン内の特殊エージェントよりも優れたパフォーマンスを実現する。
関連論文リスト
- Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。
これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。
垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:06:30Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - Agent Lightning: Train ANY AI Agents with Reinforcement Learning [24.13422767414729]
我々は,任意のAIエージェントに対して,強化学習(RL)に基づくLarge Language Models(LLM)のトレーニングを可能にするフレームワークであるAgens Lightningを提案する。
エージェント実行をマルコフ決定プロセスとして定式化することにより、統一データインターフェースを定義し、クレジット代入モジュールを含む階層的RLアルゴリズムLightningRLを提案する。
システム設計のために、トレーニング・エージェント・デアグリゲーションアーキテクチャを導入し、エージェント・オブザーバビリティ・フレームワークをエージェント・ランタイムに導入する。
論文 参考訳(メタデータ) (2025-08-05T17:50:13Z) - Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models [0.0]
強化学習(Reinforcement Learning, RL)の微調整では、モデルのパラメータの大部分を更新する必要があると仮定されることが多い。
我々はこの現象をRLにより引き起こされるパラメータ更新空間と呼ぶ。
このスパースサブネットワークのみを微調整することで、完全なモデル性能が回復し、完全に微調整されたモデルとほぼ同じパラメータが得られることを示す。
論文 参考訳(メタデータ) (2025-07-23T01:02:17Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。