論文の概要: CAPO: Counterfactual Credit Assignment in Sequential Cooperative Teams
- arxiv url: http://arxiv.org/abs/2604.17693v1
- Date: Mon, 20 Apr 2026 01:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.641078
- Title: CAPO: Counterfactual Credit Assignment in Sequential Cooperative Teams
- Title(参考訳): CAPO: シークエンシャル・コラボレーティブ・チームにおける非現実的クレジット・アサインメント
- Authors: Shripad Deshmukh, Jayakumar Subramanian, Raghavendra Addanki, Nikos Vlassis,
- Abstract要約: 本稿では,Aristocrat Utility(SeqAU)について紹介する。
批判のないポリシー段階のアルゴリズムであるCAPOを導出する。
- 参考スコア(独自算出の注目度): 6.8920524670882815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cooperative teams where agents act in a fixed order and share a single team reward, it is hard to know how much each agent contributed, and harder still when agents are updated one at a time because data collected earlier no longer reflects the new policies. We introduce the Sequential Aristocrat Utility (SeqAU), the unique per-agent learning signal that maximizes the individual learnability of each agent's action, extending the classical framework of Wolpert and Tumer (2002) to this sequential setting. From SeqAU we derive CAPO (Counterfactual Advantage Policy Optimization), a critic-free policy-gradient algorithm. CAPO fits a per-agent reward decomposition from group rewards and computes the per-agent advantage in closed form plus a handful of forward passes through the current policy, requiring no extra environment calls beyond the initial batch. We give analytic bias and variance bounds and validate them on a controlled sequential bandit, where CAPO's advantage over standard baselines grows with the team size. The framework is general; multi-LLM pipelines are a natural deployment target.
- Abstract(参考訳): エージェントが一定の順序で行動し、ひとつのチーム報酬を共有する協力チームでは、各エージェントがどれだけ貢献したかを知ることは困難です。
本稿では,各エージェントの行動の個人学習性を最大化するユニークな学習信号であるSeqAU(Sequential Aristocrat Utility)を紹介し,2002年にWolpertとTumerの古典的枠組みをこのシーケンシャルな設定に拡張した。
SeqAUから、批判のないポリシー段階のアルゴリズムであるCAPO(Counterfactual Advantage Policy Optimization)を導出する。
CAPOはグループ報酬からアジェント当たりの報酬を分解し、クローズドな形式でアジェント当たりの優位性を計算し、現在のポリシーを少しのフォワードパスで通過し、初期バッチを超える余分な環境コールを必要としない。
分析バイアスと分散バウンダリを付与し,CAPOの標準ベースラインに対する優位性は,チームサイズとともに増大する。
フレームワークは汎用的であり、マルチLLMパイプラインは自然なデプロイメントターゲットである。
関連論文リスト
- Counterfactual Credit Policy Optimization for Multi-Agent Collaboration [27.260904103460664]
協調多エージェント大言語モデル(LLM)は、役割を分解し、多様な仮説を集約することで複雑な推論タスクを解くことができる。
本稿では,エージェント固有の学習信号を割り当てるフレームワークであるCCPOを紹介する。
CCPOは、エージェントのコントリビューションを除去して結果をシミュレートする動的反ファクト的ベースラインを構築する。
論文 参考訳(メタデータ) (2026-03-23T04:35:02Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。