論文の概要: Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.14779v1
- Date: Thu, 19 Dec 2024 12:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:20.104660
- Title: Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning
- Title(参考訳): スパースマルチエージェント強化学習における最適政策保全のためのエージェント・テンポラルクレジット割り当て
- Authors: Aditya Kapoor, Sushant Swamy, Kale-ab Tessera, Mayank Baranwal, Mingfei Sun, Harshad Khadilkar, Stefano V. Albrecht,
- Abstract要約: マルチエージェント環境では、エージェントはスパースや遅れたグローバル報酬のために最適なポリシーを学ぶのに苦労することが多い。
本稿では,エージェント・テンポラル・アジェント・リワード再分配(TAR$2$)を導入し,エージェント・テンポラル・クレジット割り当て問題に対処する新しいアプローチを提案する。
TAR$2$は、粗末なグローバル報酬をタイムステップ固有の報酬に分解し、エージェント固有の報酬を計算します。
- 参考スコア(独自算出の注目度): 14.003793644193605
- License:
- Abstract: In multi-agent environments, agents often struggle to learn optimal policies due to sparse or delayed global rewards, particularly in long-horizon tasks where it is challenging to evaluate actions at intermediate time steps. We introduce Temporal-Agent Reward Redistribution (TAR$^2$), a novel approach designed to address the agent-temporal credit assignment problem by redistributing sparse rewards both temporally and across agents. TAR$^2$ decomposes sparse global rewards into time-step-specific rewards and calculates agent-specific contributions to these rewards. We theoretically prove that TAR$^2$ is equivalent to potential-based reward shaping, ensuring that the optimal policy remains unchanged. Empirical results demonstrate that TAR$^2$ stabilizes and accelerates the learning process. Additionally, we show that when TAR$^2$ is integrated with single-agent reinforcement learning algorithms, it performs as well as or better than traditional multi-agent reinforcement learning methods.
- Abstract(参考訳): マルチエージェント環境では、エージェントは、特に中間段階における行動を評価するのが困難な長期的タスクにおいて、スパースや遅れたグローバル報酬による最適なポリシーを学ぶのに苦労することが多い。
エージェントとエージェントの双方にスパース報酬を再分配することで、エージェントの時間的クレジット割り当て問題に対処する新しいアプローチであるTAR$^2$を導入する。
TAR$^2$は、粗末なグローバル報酬をタイムステップ固有の報酬に分解し、エージェント固有の報酬を計算します。
理論的には、TAR$^2$はポテンシャルに基づく報酬形成と同値であり、最適方針が変わらないことを保証している。
実験の結果,TAR$^2$は学習過程を安定化し,加速することが示された。
さらに,TAR$^2$が単エージェント強化学習アルゴリズムに統合された場合,従来のマルチエージェント強化学習法と同等以上の性能を示すことを示す。
関連論文リスト
- $TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning [7.97295726921338]
Temporal-Agent Reward Redistribution $TAR2$は、スパースグローバルな報酬をエージェント固有のタイムステップ固有のコンポーネントに分解する新しいアプローチである。
我々は、$TAR2$が潜在的な報酬形成と整合し、元の環境と同じ最適なポリシーを保っていることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - STAS: Spatial-Temporal Return Decomposition for Multi-agent
Reinforcement Learning [10.102447181869005]
本研究では,時間次元と空間次元の両方でクレジット代入を学習する新しい手法を提案する。
提案手法は, 時間的信用を効果的に割り当て, 最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-15T10:09:03Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。