論文の概要: ACDER: Augmented Curiosity-Driven Experience Replay
- arxiv url: http://arxiv.org/abs/2011.08027v1
- Date: Mon, 16 Nov 2020 15:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:49:39.146683
- Title: ACDER: Augmented Curiosity-Driven Experience Replay
- Title(参考訳): ACDER: 好奇心駆動体験リプレイの強化
- Authors: Boyao Li, Tao Lu, Jiayi Li, Ning Lu, Yinghao Cai, Shuo Wang
- Abstract要約: Augmented Curiosity-Driven Experience Replay (ACDER) という新しい手法を提案する。
ACDERは新しい目標指向の好奇心を駆使して、エージェントが新しいタスク関連状態をより意図的に追求するよう促す。
Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。
- 参考スコア(独自算出の注目度): 16.755555854030412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration in environments with sparse feedback remains a challenging
research problem in reinforcement learning (RL). When the RL agent explores the
environment randomly, it results in low exploration efficiency, especially in
robotic manipulation tasks with high dimensional continuous state and action
space. In this paper, we propose a novel method, called Augmented
Curiosity-Driven Experience Replay (ACDER), which leverages (i) a new
goal-oriented curiosity-driven exploration to encourage the agent to pursue
novel and task-relevant states more purposefully and (ii) the dynamic initial
states selection as an automatic exploratory curriculum to further improve the
sample-efficiency. Our approach complements Hindsight Experience Replay (HER)
by introducing a new way to pursue valuable states. Experiments conducted on
four challenging robotic manipulation tasks with binary rewards, including
Reach, Push, Pick&Place and Multi-step Push. The empirical results show that
our proposed method significantly outperforms existing methods in the first
three basic tasks and also achieves satisfactory performance in multi-step
robotic task learning.
- Abstract(参考訳): 緩やかなフィードバックを持つ環境での探索は、強化学習(RL)において難しい研究課題である。
rlエージェントがランダムに環境を探索すると、特に高次元の連続状態と動作空間を持つロボット操作タスクにおいて、探索効率が低下する。
本稿では,Augmented Curiosity-Driven Experience Replay(ACDER)と呼ばれる新しい手法を提案する。
一 目的志向の好奇心を駆使した新規・課題関連国家の追求を奨励する新たな探究
(ii)サンプル効率をさらに向上させるための自動探索カリキュラムとしての動的初期状態選択。
我々のアプローチは、価値ある状態を追求する新しい方法を導入することで、HER(Hindsight Experience Replay)を補完します。
Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。
実験の結果,提案手法は,最初の3つの基本課題において既存の手法を著しく上回り,多段階のロボットタスク学習において良好な性能を発揮することが示された。
関連論文リスト
- O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Is Curiosity All You Need? On the Utility of Emergent Behaviours from
Curious Exploration [20.38772636693469]
我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、この手法の潜在能力を最大限に活用できないと論じている。
好奇心に基づく学習において出現する行動の維持に焦点を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-17T15:28:25Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。