論文の概要: Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.09243v1
- Date: Tue, 19 Jul 2022 12:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:33:33.502549
- Title: Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning
- Title(参考訳): 効率的なマルチステップスパース・リワード強化学習のための抽象実証と適応探索
- Authors: Xintong Yang, Ze Ji, Jing Wu, Yu-kun Lai
- Abstract要約: 本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
- 参考スコア(独自算出の注目度): 44.968170318777105
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although Deep Reinforcement Learning (DRL) has been popular in many
disciplines including robotics, state-of-the-art DRL algorithms still struggle
to learn long-horizon, multi-step and sparse reward tasks, such as stacking
several blocks given only a task-completion reward signal. To improve learning
efficiency for such tasks, this paper proposes a DRL exploration technique,
termed A^2, which integrates two components inspired by human experiences:
Abstract demonstrations and Adaptive exploration. A^2 starts by decomposing a
complex task into subtasks, and then provides the correct orders of subtasks to
learn. During training, the agent explores the environment adaptively, acting
more deterministically for well-mastered subtasks and more stochastically for
ill-learnt subtasks. Ablation and comparative experiments are conducted on
several grid-world tasks and three robotic manipulation tasks. We demonstrate
that A^2 can aid popular DRL algorithms (DQN, DDPG, and SAC) to learn more
efficiently and stably in these environments.
- Abstract(参考訳): Deep Reinforcement Learning (DRL) は、ロボット工学を含む多くの分野で人気があるが、最先端のDRLアルゴリズムは、タスク補完報酬信号のみを与えられたいくつかのブロックを積み重ねるなど、長い水平、多ステップ、スパースな報酬タスクを学習するのに依然として苦労している。
このようなタスクの学習効率を向上させるために,人間の体験に触発された2つのコンポーネント(抽象的なデモンストレーションと適応探索)を統合するDRL探索手法A^2を提案する。
A^2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
訓練中、エージェントは環境を適応的に探索し、よく訓練されたサブタスクに対してより決定論的に、そしてより確率論的に未学習サブタスクに対して行動する。
アブレーションと比較実験はいくつかのグリッドワールドタスクと3つのロボット操作タスクで行われている。
A^2 は一般的な DRL アルゴリズム (DQN,DDPG,SAC) をこれらの環境でより効率的に安定して学習できることを示す。
関連論文リスト
- Image-Based Deep Reinforcement Learning with Intrinsically Motivated Stimuli: On the Execution of Complex Robotic Tasks [2.1040342571709885]
本研究は, 内在的モチベーション理論に触発されて, 新規性と驚きの内在的刺激が, 複雑で軽微な環境における探索改善に役立つと仮定した。
TD3 のイメージベース拡張である textitNaSA-TD3 で直接学習できる新しいサンプル効率手法を提案する。
実験により、NaSA-TD3は訓練が容易であり、シミュレーション環境と実世界の環境の両方において、複雑な連続制御ロボットタスクに取り組む効率的な方法であることが示された。
論文 参考訳(メタデータ) (2024-07-31T05:11:06Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - PBCS : Efficient Exploration and Exploitation Using a Synergy between
Reinforcement Learning and Motion Planning [8.176152440971897]
「プラン、バックプレイ、チェインスキル」は、運動計画と強化学習を組み合わせてハード探索環境を解決している。
本手法は, 様々な大きさの2次元迷路環境において, 最先端のRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-24T11:37:09Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。