論文の概要: Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System
- arxiv url: http://arxiv.org/abs/2602.08335v1
- Date: Mon, 09 Feb 2026 07:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.099113
- Title: Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System
- Title(参考訳): SHARP:Multi-Agent Systemのためのシェープクレジットベースの最適化
- Authors: Yanming Li, Xuelin Zhang, WenJie Lu, Ziye Tang, Maodong Wu, Haotian Luo, Tongtong Wu, Zijie Peng, Hongze Mi, Yibo Feng, Naiqiang Tan, Chao Huang, Hong Chen, Li Shen,
- Abstract要約: 本稿では,シェープリーを基盤とした階層型強化政策(SHARP)について紹介する。
SHARPは、主にグローバル放送精度報酬(英語版)とツールプロセス報酬(英語版)を通じて、軌道群全体におけるエージェント固有の利点を正規化することでトレーニングを安定化し、実行効率を向上させる。
実験の結果、SHARPは最近の最先端のベースラインを著しく上回り、シングルエージェントとマルチエージェントのアプローチに対して平均23.66%と14.05%の改善を達成した。
- 参考スコア(独自算出の注目度): 29.738672424331398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating Large Language Models (LLMs) with external tools via multi-agent systems offers a promising new paradigm for decomposing and solving complex problems. However, training these systems remains notoriously difficult due to the credit assignment challenge, as it is often unclear which specific functional agent is responsible for the success or failure of decision trajectories. Existing methods typically rely on sparse or globally broadcast rewards, failing to capture individual contributions and leading to inefficient reinforcement learning. To address these limitations, we introduce the Shapley-based Hierarchical Attribution for Reinforcement Policy (SHARP), a novel framework for optimizing multi-agent reinforcement learning via precise credit attribution. SHARP effectively stabilizes training by normalizing agent-specific advantages across trajectory groups, primarily through a decomposed reward mechanism comprising a global broadcast-accuracy reward, a Shapley-based marginal-credit reward for each agent, and a tool-process reward to improve execution efficiency. Extensive experiments across various real-world benchmarks demonstrate that SHARP significantly outperforms recent state-of-the-art baselines, achieving average match improvements of 23.66% and 14.05% over single-agent and multi-agent approaches, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)をマルチエージェントシステムを介して外部ツールと統合することは、複雑な問題を分解し解決するための有望な新しいパラダイムを提供する。
しかしながら、これらのシステムのトレーニングは、クレジット割り当ての課題によって、決定軌道の成功や失敗にどの特定の機能的エージェントが責任を負っているのかがよく分かっていないため、非常に難しいままである。
既存の方法は、通常スパースやグローバルな放送報酬に頼り、個々の貢献を捉えず、非効率な強化学習につながる。
これらの制約に対処するため、我々は、高精度なクレジット属性によるマルチエージェント強化学習を最適化する新しいフレームワーク、Shapley-based Hierarchical Attribution for Reinforcement Policy (SHARP)を導入する。
SHARPは、主にグローバル放送精度報酬、シャープリーベースの各エージェントに対するマーシャルクレジット報酬、実行効率を向上させるためのツールプロセス報酬を含む分解報酬メカニズムによって、トラジェクトリグループ間でエージェント固有の利点を正規化することにより、トレーニングを効果的に安定化する。
様々な実世界のベンチマークによる大規模な実験により、SHARPは最近の最先端のベースラインを著しく上回り、それぞれ1エージェントとマルチエージェントのアプローチで平均23.66%と14.05%の改善を達成した。
関連論文リスト
- GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。