論文の概要: Adversarial Intrinsic Motivation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.13345v1
- Date: Thu, 27 May 2021 17:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:14:07.112158
- Title: Adversarial Intrinsic Motivation for Reinforcement Learning
- Title(参考訳): 強化学習における固有動機づけ
- Authors: Ishan Durugkar, Mauricio Tec, Scott Niekum, Peter Stone
- Abstract要約: 本研究では,政策の国家訪問分布と目標分布とのWasserstein-1距離の1つの目的が,強化学習タスクに有効に活用できるかどうかを考察する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
- 参考スコア(独自算出の注目度): 60.322878138199364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning with an objective function that seeks to minimize the mismatch with
a reference distribution has been shown to be useful for generative modeling
and imitation learning. In this paper, we investigate whether one such
objective, the Wasserstein-1 distance between a policy's state visitation
distribution and a target distribution, can be utilized effectively for
reinforcement learning (RL) tasks. Specifically, this paper focuses on
goal-conditioned reinforcement learning where the idealized (unachievable)
target distribution has all the probability mass at the goal. We introduce a
quasimetric specific to Markov Decision Processes (MDPs), and show that the
policy that minimizes the Wasserstein-1 distance of its state visitation
distribution to this target distribution under this quasimetric is the policy
that reaches the goal in as few steps as possible. Our approach, termed
Adversarial Intrinsic Motivation (AIM), estimates this Wasserstein-1 distance
through its dual objective and uses it to compute a supplemental reward
function. Our experiments show that this reward function changes smoothly with
respect to transitions in the MDP and assists the agent in learning.
Additionally, we combine AIM with Hindsight Experience Replay (HER) and show
that the resulting algorithm accelerates learning significantly on several
simulated robotics tasks when compared to HER with a sparse positive reward at
the goal state.
- Abstract(参考訳): 参照分布とのミスマッチを最小限に抑える目的関数による学習は、生成的モデリングや模倣学習に有用であることが示されている。
本稿では,政策の国家訪問分布と目標分布とのWasserstein-1距離の1つの目的が,強化学習(RL)タスクに有効に活用できるかどうかを検討する。
具体的には、理想化された(達成不可能な)目標分布が目標の全ての確率質量を持つ目標条件強化学習に焦点を当てる。
本稿では,マルコフ決定過程(MDPs)に特異的な準測度を導入し,この準測度の下では,その状態訪問分布から目標分布へのワッサーシュタイン-1距離を極力最小化する政策が,目標を達成するための政策であることを示す。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
実験の結果, この報酬関数はMDPの遷移に対して円滑に変化し, エージェントの学習を支援することがわかった。
さらに,AIM と Hindsight Experience Replay (HER) を組み合わせることで,HER が目標状態の低い正の報酬と比べ,複数のシミュレーションロボットタスクにおいて,アルゴリズムが学習を著しく加速することを示す。
関連論文リスト
- A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - TarGF: Learning Target Gradient Field for Object Rearrangement [8.49306925839127]
我々は、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから規範的なターゲット分布へオブジェクトを並べ替えることに焦点を当てる。
報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡を実証として収集することは困難である。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
論文 参考訳(メタデータ) (2022-09-02T07:20:34Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Physical Reasoning Using Dynamics-Aware Models [32.402950370430496]
本研究は、オブジェクトダイナミクスに関する追加の監視信号で報酬価値を高めることにより、この制限に対処することを目的とする。
具体的には、2つの対象物の軌道間の距離測度を定義し、この距離測度を用いて2つの環境ロールアウトの類似性を特徴づける。
我々は、正しい報酬を予測することに加えて、この尺度に従ってロールアウトを正しくランク付けするようにモデルを訓練する。
論文 参考訳(メタデータ) (2021-02-20T12:56:16Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。