論文の概要: Shaping Advice in Deep Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.15941v1
- Date: Mon, 29 Mar 2021 20:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 06:29:16.317364
- Title: Shaping Advice in Deep Multi-Agent Reinforcement Learning
- Title(参考訳): 深層マルチエージェント強化学習におけるシェーピングアドバイス
- Authors: Baicen Xiao, Bhaskar Ramasubramanian, Radha Poovendran
- Abstract要約: マルチエージェント強化学習には、複数のエージェントが相互に相互作用してタスクを完了する。
環境が与える報酬が不足している場合、エージェントは、彼らが受けるアクションの質について即座にフィードバックを受け取れない。
マルチエージェント強化学習(SAM)におけるシェーピングアドバイス(Shaping Advice)と呼ばれる手法を提案し、シェーピングアドバイスと呼ばれる追加の報酬で環境からの報酬信号を増強する。
- 参考スコア(独自算出の注目度): 14.382293569959979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning involves multiple agents interacting with
each other and a shared environment to complete tasks. When rewards provided by
the environment are sparse, agents may not receive immediate feedback on the
quality of actions that they take, thereby affecting learning of policies. In
this paper, we propose a method called Shaping Advice in deep Multi-agent
reinforcement learning (SAM) to augment the reward signal from the environment
with an additional reward termed shaping advice. The shaping advice is given by
a difference of potential functions at consecutive time-steps. Each potential
function is a function of observations and actions of the agents. The shaping
advice needs to be specified only once at the start of training, and can be
easily provided by non-experts. We show through theoretical analyses and
experimental validation that shaping advice provided by SAM does not distract
agents from completing tasks specified by the environment reward.
Theoretically, we prove that convergence of policy gradients and value
functions when using SAM implies convergence of these quantities in the absence
of SAM. Experimentally, we evaluate SAM on three tasks in the multi-agent
Particle World environment that have sparse rewards. We observe that using SAM
results in agents learning policies to complete tasks faster, and obtain higher
rewards than: i) using sparse rewards alone; ii) a state-of-the-art reward
redistribution method.
- Abstract(参考訳): マルチエージェント強化学習は、複数のエージェントが相互に相互作用し、タスクを完了させる共有環境を含む。
環境が与える報酬が少なすぎると、エージェントは行動の質について即座にフィードバックを受けられなくなり、ポリシーの学習に影響を及ぼす。
本稿では,深いマルチエージェント強化学習(SAM)におけるシェーピングアドバイスと呼ばれる手法を提案する。
シェーピングアドバイスは、連続した時間ステップにおけるポテンシャル関数の差によって与えられる。
それぞれのポテンシャル関数は、エージェントの観察と行動の関数である。
シェーピングアドバイスはトレーニングの開始時に一度だけ指定する必要があり、専門家でない人でも簡単に提供できる。
本研究では,SAMが提案する形状アドバイスが,環境報酬によって指定されたタスクの完了を妨げないことを示す。
理論的には、SAM を用いた場合のポリシー勾配と値関数の収束は、SAM が存在しない場合のこれらの量の収束を意味する。
実験により,スパース報酬を有する多エージェント粒子世界環境における3つの課題についてSAMを評価した。
samを利用することで、エージェントがより早くタスクを完了できるようにポリシーを学習し、より高い報酬を得るようになるのを観察する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Embedding Contextual Information through Reward Shaping in Multi-Agent
Learning: A Case Study from Google Football [0.0]
我々は、報酬関数に文脈情報を埋め込むことで、新たな報酬形成手法を作成する。
Google Research Football (GRF) 環境でこれを実証する。
実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最新のMARLアルゴリズムに,報奨形法が有用であることが確認された。
論文 参考訳(メタデータ) (2023-03-25T10:21:13Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Shaping Advice in Deep Reinforcement Learning [9.084006156825632]
強化学習は、タスクを完了させるために環境と対話するエージェントを含む。
環境によって提供される報酬が不足している場合、エージェントは、彼らが受ける行動の質に関する即時的なフィードバックを受けられない。
本稿では,環境からの報酬信号を付加する手法を提案する。
論文 参考訳(メタデータ) (2022-02-19T01:42:04Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。