論文の概要: STAS: Spatial-Temporal Return Decomposition for Multi-agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.07520v1
- Date: Sat, 15 Apr 2023 10:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 18:45:59.311381
- Title: STAS: Spatial-Temporal Return Decomposition for Multi-agent
Reinforcement Learning
- Title(参考訳): STAS:マルチエージェント強化学習のための時空間回帰分解
- Authors: Sirui Chen, Zhaowei Zhang, Yali Du, Yaodong Yang
- Abstract要約: 本稿では,Spatial-Temporal Attention with Shapley (STAS) という手法を提案する。
最初はグローバルなリターンを各タイムステップに分解し、次にShapley Valueを使用して、グローバルな報酬から個々のペイオフを再分配する。
我々は,古典的アリス&ボブの例とマルチエージェント粒子環境ベンチマークについて,様々なシナリオで評価した。
- 参考スコア(独自算出の注目度): 10.77296826373108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized Training with Decentralized Execution (CTDE) has been proven to
be an effective paradigm in cooperative multi-agent reinforcement learning
(MARL). One of the major challenges is yet credit assignment, which aims to
credit agents by their contributions. Prior studies focus on either implicitly
decomposing the joint value function or explicitly computing the payoff
distribution of all agents. However, in episodic reinforcement learning
settings where global rewards can only be revealed at the end of the episode,
existing methods usually fail to work. They lack the functionality of modeling
complicated relations of the delayed global reward in the temporal dimension
and suffer from large variance and bias. We propose a novel method named
Spatial-Temporal Attention with Shapley (STAS) for return decomposition; STAS
learns credit assignment in both the temporal and the spatial dimension. It
first decomposes the global return back to each time step, then utilizes
Shapley Value to redistribute the individual payoff from the decomposed global
reward. To mitigate the computational complexity of Shapley Value, we introduce
an approximation of marginal contribution and utilize Monte Carlo sampling to
estimate Shapley Value. We evaluate our method on the classical Alice & Bob
example and Multi-agent Particle Environments benchmarks across different
scenarios, and we show our methods achieve an effective spatial-temporal credit
assignment and outperform all state-of-art baselines.
- Abstract(参考訳): 分散実行による集中訓練(CTDE)は協調型マルチエージェント強化学習(MARL)において有効なパラダイムであることが証明されている。
主要な課題の1つは、クレジット・アサインであり、これは彼らの貢献によるクレジット・エージェントを目指している。
先行研究は、暗黙的に結合値関数を分解するか、すべてのエージェントのペイオフ分布を明示的に計算することに焦点を当てている。
しかし、エピソードの終わりにグローバルな報酬が露呈できるエピソード強化学習環境では、既存の方法が機能しないのが普通である。
時間次元における遅れたグローバル報酬の複雑な関係をモデル化する機能がなく、大きなばらつきと偏見に悩まされている。
本稿では,時空間次元と時空間次元の両方でクレジット代入を学習する,Spatial-Temporal Attention with Shapley (STAS) という手法を提案する。
最初はグローバルリターンを各タイムステップに分解し、次にShapley Valueを使用して、分解されたグローバルリターンから個々のペイオフを再分配する。
シェープリー値の計算複雑性を軽減するため,余剰寄与の近似を導入し,モンテカルロサンプリングを用いてシェープリー値の推定を行う。
従来のalice & bobの例とマルチエージェント粒子環境ベンチマークを用いて,様々なシナリオで評価を行い,有効な空間的・時空間的クレジット割当を達成し,最先端のベースラインを上回っていることを示す。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。