論文の概要: Who Gets the Reward, Who Gets the Blame? Evaluation-Aligned Training Signals for Multi-LLM Agents
- arxiv url: http://arxiv.org/abs/2511.10687v2
- Date: Mon, 17 Nov 2025 19:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.59214
- Title: Who Gets the Reward, Who Gets the Blame? Evaluation-Aligned Training Signals for Multi-LLM Agents
- Title(参考訳): 誰が逆戻りするか? マルチLLMエージェントのための評価適応訓練信号
- Authors: Chih-Hsuan Yang, Tanwi Mallick, Le Chen, Krishnan Raghavan, Azton Wells, Amal Gueroudji, Ian T. Foster, Rajeev Thakur,
- Abstract要約: マルチエージェントシステムにおける大規模言語モデル(LLM)は複雑なタスクを約束している。
本稿では,協調ゲーム理論の帰属とプロセス報酬モデリングを一体化する理論的枠組みを提案する。
本手法は, 局所的, 署名, クレジット保存信号を生成する。
- 参考スコア(独自算出の注目度): 10.556421101483787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) in multi-agent systems (MAS) have shown promise for complex tasks, yet current training methods lack principled ways to connect system-level evaluation with agent-level and message-level learning. We propose a theoretical framework that unifies cooperative game-theoretic attribution with process reward modeling to transform system evaluation into agent credit and then into response-level signals. Unlike prior approaches that rely only on attribution (e.g., Shapley) or step-level labels (e.g., PRM), our method produces local, signed, and credit-conserving signals. In success cases, Shapley-based credit assignment fairly allocates outcomes across agents and is refined into per-message rewards that promote cooperation while discouraging redundancy or sabotage. In failure cases, first-error localization yields repair-aware preferences that penalize harmful steps while rewarding corrective attempts. The resulting signals are bounded, cooperative, and directly compatible with reinforcement-based or preference-based post-training, providing a unified and auditable pathway from global evaluation to local supervision in LLM multi-agent training. Our contribution is conceptual: we present a theoretical foundation and training signals, leaving empirical validation for future work.
- Abstract(参考訳): マルチエージェントシステム(MAS)における大規模言語モデル(LLM)は複雑なタスクを約束するが、現在の訓練手法ではエージェントレベルの評価とメッセージレベルの学習を結び付けるための原則的な方法が欠如している。
本稿では,協調ゲーム理論の属性をプロセス報酬モデルと統合し,システム評価をエージェントクレジットに変換し,応答レベル信号に変換する理論的枠組みを提案する。
帰属(例えばShapley)やステップレベルのラベル(例えばPRM)にのみ依存する従来の手法とは異なり、本手法は局所的、署名的、信用保存的な信号を生成する。
成功例では、Shapleyベースのクレジット割り当てはエージェント間で成果を公平に割り当て、冗長性や破壊を抑えながら協力を促進するメッセージごとの報酬に洗練される。
障害の場合、ファーストエラーのローカライゼーションは、修正の試みに報いる一方で、有害なステップを罰する修復対応の好みをもたらす。
得られた信号は,LLMマルチエージェントトレーニングにおいて,グローバル評価から局部監督までの統一的かつ監査可能な経路を提供する,強化ベースあるいは嗜好ベースのポストトレーニングと直接的に互換性がある。
我々の貢献は概念的であり、我々は理論の基礎と訓練信号を示し、将来の研究に実証的な検証を残している。
関連論文リスト
- GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。
グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。
ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文 参考訳(メタデータ) (2025-10-16T17:54:07Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。
提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。
どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-02-24T05:56:47Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。