論文の概要: Value-Based Reinforcement Learning for Continuous Control Robotic
Manipulation in Multi-Task Sparse Reward Settings
- arxiv url: http://arxiv.org/abs/2107.13356v1
- Date: Wed, 28 Jul 2021 13:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 17:47:37.881663
- Title: Value-Based Reinforcement Learning for Continuous Control Robotic
Manipulation in Multi-Task Sparse Reward Settings
- Title(参考訳): マルチタスクスパースリワード設定における連続制御ロボットマニピュレーションのための値ベース強化学習
- Authors: Sreehari Rammohan, Shangqun Yu, Bowen He, Eric Hsiung, Eric Rosen,
Stefanie Tellex, George Konidaris
- Abstract要約: スパース報酬設定における連続的なロボット操作タスクの学習における価値に基づく強化学習の可能性を示す。
ロボット操作タスクにおいて、RBF-DQNはTD3、SAC、PPOといった最先端のアルゴリズムよりも高速に収束することを示す。
また,RBF-DQNを用いてアブレーション研究を行い,HER (Hindsight Experience Replay) やPER ( Prioritized Experience Replay) などのバニラ深度Q学習の強化手法がRBF-DQNにも適用可能であることを示した。
- 参考スコア(独自算出の注目度): 15.198729819644795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning continuous control in high-dimensional sparse reward settings, such
as robotic manipulation, is a challenging problem due to the number of samples
often required to obtain accurate optimal value and policy estimates. While
many deep reinforcement learning methods have aimed at improving sample
efficiency through replay or improved exploration techniques, state of the art
actor-critic and policy gradient methods still suffer from the hard exploration
problem in sparse reward settings. Motivated by recent successes of value-based
methods for approximating state-action values, like RBF-DQN, we explore the
potential of value-based reinforcement learning for learning continuous robotic
manipulation tasks in multi-task sparse reward settings. On robotic
manipulation tasks, we empirically show RBF-DQN converges faster than current
state of the art algorithms such as TD3, SAC, and PPO. We also perform ablation
studies with RBF-DQN and have shown that some enhancement techniques for
vanilla Deep Q learning such as Hindsight Experience Replay (HER) and
Prioritized Experience Replay (PER) can also be applied to RBF-DQN. Our
experimental analysis suggests that value-based approaches may be more
sensitive to data augmentation and replay buffer sample techniques than
policy-gradient methods, and that the benefits of these methods for robot
manipulation are heavily dependent on the transition dynamics of generated
subgoal states.
- Abstract(参考訳): ロボット操作のような高次元スパース報酬設定で連続制御を学ぶことは、正確な最適値とポリシー推定を得るのにしばしば必要なサンプル数のために難しい問題である。
多くの深層強化学習手法は、リプレイや探索手法の改善によるサンプル効率の向上を目的としているが、アートアクター批判的・政策勾配法の現状は、スパース報酬設定におけるハード探索問題に悩まされている。
近年のRBF-DQNのような状態行動値の近似手法の成功に触発されて,マルチタスクスパース報酬設定で連続的なロボット操作タスクを学習するための価値ベースの強化学習の可能性を探る。
ロボット操作タスクにおいて、RBF-DQNはTD3、SAC、PPOといった最先端のアルゴリズムよりも高速に収束することを示す。
また,RBF-DQNを用いてアブレーション研究を行い,HER (Hindsight Experience Replay) やPER ( Prioritized Experience Replay) などのバニラ深度Q学習の強化手法がRBF-DQNにも適用可能であることを示した。
実験結果から, 価値ベースアプローチは, ポリシー勾配法よりもデータ拡張やリプレイバッファ法に敏感であり, ロボット操作におけるこれらの手法の利点は, 生成する下位状態の遷移ダイナミクスに大きく依存することが示唆された。
関連論文リスト
- Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers [19.097776174247244]
アクション・バリュー・グラディエント(AVG)は、新たなディープ・ポリシー・グラディエント法である。
インクリメンタルアップデートのみを使用して、実際のロボットによる効果的な深層強化学習を初めて示す。
論文 参考訳(メタデータ) (2024-11-22T22:46:21Z) - State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。