論文の概要: ACDER: Augmented Curiosity-Driven Experience Replay
- arxiv url: http://arxiv.org/abs/2011.08027v1
- Date: Mon, 16 Nov 2020 15:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:49:39.146683
- Title: ACDER: Augmented Curiosity-Driven Experience Replay
- Title(参考訳): ACDER: 好奇心駆動体験リプレイの強化
- Authors: Boyao Li, Tao Lu, Jiayi Li, Ning Lu, Yinghao Cai, Shuo Wang
- Abstract要約: Augmented Curiosity-Driven Experience Replay (ACDER) という新しい手法を提案する。
ACDERは新しい目標指向の好奇心を駆使して、エージェントが新しいタスク関連状態をより意図的に追求するよう促す。
Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。
- 参考スコア(独自算出の注目度): 16.755555854030412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration in environments with sparse feedback remains a challenging
research problem in reinforcement learning (RL). When the RL agent explores the
environment randomly, it results in low exploration efficiency, especially in
robotic manipulation tasks with high dimensional continuous state and action
space. In this paper, we propose a novel method, called Augmented
Curiosity-Driven Experience Replay (ACDER), which leverages (i) a new
goal-oriented curiosity-driven exploration to encourage the agent to pursue
novel and task-relevant states more purposefully and (ii) the dynamic initial
states selection as an automatic exploratory curriculum to further improve the
sample-efficiency. Our approach complements Hindsight Experience Replay (HER)
by introducing a new way to pursue valuable states. Experiments conducted on
four challenging robotic manipulation tasks with binary rewards, including
Reach, Push, Pick&Place and Multi-step Push. The empirical results show that
our proposed method significantly outperforms existing methods in the first
three basic tasks and also achieves satisfactory performance in multi-step
robotic task learning.
- Abstract(参考訳): 緩やかなフィードバックを持つ環境での探索は、強化学習(RL)において難しい研究課題である。
rlエージェントがランダムに環境を探索すると、特に高次元の連続状態と動作空間を持つロボット操作タスクにおいて、探索効率が低下する。
本稿では,Augmented Curiosity-Driven Experience Replay(ACDER)と呼ばれる新しい手法を提案する。
一 目的志向の好奇心を駆使した新規・課題関連国家の追求を奨励する新たな探究
(ii)サンプル効率をさらに向上させるための自動探索カリキュラムとしての動的初期状態選択。
我々のアプローチは、価値ある状態を追求する新しい方法を導入することで、HER(Hindsight Experience Replay)を補完します。
Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。
実験の結果,提案手法は,最初の3つの基本課題において既存の手法を著しく上回り,多段階のロボットタスク学習において良好な性能を発揮することが示された。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。
オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。
しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。
本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T04:37:12Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。