論文の概要: Shaping Advice in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.09489v1
- Date: Sat, 19 Feb 2022 01:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 17:00:24.275272
- Title: Shaping Advice in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における形状アドバイス
- Authors: Baicen Xiao, Bhaskar Ramasubramanian, Radha Poovendran
- Abstract要約: 強化学習は、タスクを完了させるために環境と対話するエージェントを含む。
環境によって提供される報酬が不足している場合、エージェントは、彼らが受ける行動の質に関する即時的なフィードバックを受けられない。
本稿では,環境からの報酬信号を付加する手法を提案する。
- 参考スコア(独自算出の注目度): 9.084006156825632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning involves agents interacting with an environment to
complete tasks. When rewards provided by the environment are sparse, agents may
not receive immediate feedback on the quality of actions that they take,
thereby affecting learning of policies. In this paper, we propose to methods to
augment the reward signal from the environment with an additional reward termed
shaping advice in both single and multi-agent reinforcement learning. The
shaping advice is specified as a difference of potential functions at
consecutive time-steps. Each potential function is a function of observations
and actions of the agents. The use of potential functions is underpinned by an
insight that the total potential when starting from any state and returning to
the same state is always equal to zero. We show through theoretical analyses
and experimental validation that the shaping advice does not distract agents
from completing tasks specified by the environment reward. Theoretically, we
prove that the convergence of policy gradients and value functions when using
shaping advice implies the convergence of these quantities in the absence of
shaping advice. We design two algorithms- Shaping Advice in Single-agent
reinforcement learning (SAS) and Shaping Advice in Multi-agent reinforcement
learning (SAM). Shaping advice in SAS and SAM needs to be specified only once
at the start of training, and can easily be provided by non-experts.
Experimentally, we evaluate SAS and SAM on two tasks in single-agent
environments and three tasks in multi-agent environments that have sparse
rewards. We observe that using shaping advice results in agents learning
policies to complete tasks faster, and obtain higher rewards than algorithms
that do not use shaping advice.
- Abstract(参考訳): 強化学習は、タスクを完了するために環境と対話するエージェントを伴う。
環境が与える報酬が少なすぎると、エージェントは行動の質について即座にフィードバックを受けられなくなり、ポリシーの学習に影響を及ぼす。
本稿では,シングルエージェントとマルチエージェントの強化学習において,「シェーピングアドバイス」と呼ばれる追加の報酬を加えて,環境からの報酬信号を強化する手法を提案する。
シェーピングアドバイスは、連続する時間ステップにおけるポテンシャル関数の差として特定される。
それぞれのポテンシャル関数は、エージェントの観察と行動の関数である。
ポテンシャル関数の使用は、任意の状態から始まり、同じ状態に戻るときの総ポテンシャルが常に0に等しいという洞察に支えられている。
提案手法は,環境報酬によって指定されたタスクの完了をエージェントが妨げない,という理論解析と実験的な検証を通じて示す。
理論的には、整形アドバイスを用いた場合の政策勾配と値関数の収束は、整形アドバイスがない場合のこれらの量の収束を意味する。
単一エージェント強化学習(SAS)におけるシェーピングアドバイスと、多エージェント強化学習(SAM)におけるシェーピングアドバイスという2つのアルゴリズムを設計する。
SASとSAMでアドバイスを作成するには、トレーニング開始時に一度だけ指定する必要がある。
実験により,単エージェント環境における2つのタスクと,スパース報酬を有するマルチエージェント環境における3つのタスクについて,SASとSAMを評価した。
我々は,シェーピングアドバイスを使用すれば,エージェントがタスクを迅速に完了するためのポリシーを学習し,シェーピングアドバイスを使用しないアルゴリズムよりも高い報酬が得られることを観察する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations [16.073203911932872]
ピアラーニングは、グループで学ぶエージェントのための新しい高度な強化学習フレームワークである。
ピアラーニングは,OpenAI Gymドメインのいくつかの課題において,単一エージェント学習とベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:01:35Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Multi-Agent Advisor Q-Learning [18.8931184962221]
マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。
本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。
アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
論文 参考訳(メタデータ) (2021-10-26T00:21:15Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Shaping Advice in Deep Multi-Agent Reinforcement Learning [14.382293569959979]
マルチエージェント強化学習には、複数のエージェントが相互に相互作用してタスクを完了する。
環境が与える報酬が不足している場合、エージェントは、彼らが受けるアクションの質について即座にフィードバックを受け取れない。
マルチエージェント強化学習(SAM)におけるシェーピングアドバイス(Shaping Advice)と呼ばれる手法を提案し、シェーピングアドバイスと呼ばれる追加の報酬で環境からの報酬信号を増強する。
論文 参考訳(メタデータ) (2021-03-29T20:33:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。