論文の概要: Imitation Bootstrapped Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.02198v2
- Date: Mon, 20 Nov 2023 23:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:13:05.917280
- Title: Imitation Bootstrapped Reinforcement Learning
- Title(参考訳): 模倣ブートストラップ強化学習
- Authors: Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh
- Abstract要約: 模倣ブートストラップ強化学習(IBRL)は、最初は限られた数のデモンストレーションでILポリシーを訓練する新しいフレームワークである。
IBRLは、スパース報酬連続制御タスク7つの課題に対して、SoTA性能とサンプル効率を達成する。
- 参考スコア(独自算出の注目度): 34.86656132858631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the considerable potential of reinforcement learning (RL), robotics
control tasks predominantly rely on imitation learning (IL) owing to its better
sample efficiency. However, given the high cost of collecting extensive
demonstrations, RL is still appealing if it can utilize limited imitation data
for efficient autonomous self-improvement. Existing RL methods that utilize
demonstrations either initialize the replay buffer with demonstrations and
oversample them during RL training, which does not benefit from the
generalization potential of modern IL methods, or pretrain the RL policy with
IL on the demonstrations, which requires additional mechanisms to prevent
catastrophic forgetting during RL fine-tuning. We propose imitation
bootstrapped reinforcement learning (IBRL), a novel framework that first trains
an IL policy on a limited number of demonstrations and then uses it to propose
alternative actions for both online exploration and target value bootstrapping.
IBRL achieves SoTA performance and sample efficiency on 7 challenging sparse
reward continuous control tasks in simulation while learning directly from
pixels. As a highlight of our method, IBRL achieves $6.4\times$ higher success
rate than RLPD, a strong method that combines the idea of oversampling
demonstrations with modern RL improvements, under the budget of 10 demos and
100K interactions in the challenging PickPlaceCan task in the Robomimic
benchmark.
- Abstract(参考訳): 強化学習(RL)のかなりの可能性にもかかわらず、ロボット制御タスクはより優れたサンプル効率のため、主に模倣学習(IL)に依存している。
しかし、大規模なデモンストレーション収集のコストが高いことから、RLは効率的な自律的自己改善のために限られた模倣データを利用することができるといまだに魅力的である。
デモを利用する既存のrlメソッドは、デモでリプレイバッファを初期化し、rlトレーニング中にオーバーサンプルするか、最新のilメソッドの一般化の恩恵を受けないか、デモでilでrlポリシーを事前トレーニングするかのどちらかで、rlの微調整中に壊滅的なリプレイバッファを忘れるのを防ぐ追加のメカニズムを必要とする。
提案手法は,実演数限定でILポリシーを訓練し,オンライン探索と目標値ブートストラップのための代替行動を提案する新しいフレームワークである,模倣ブートストラップ型強化学習(IBRL)を提案する。
IBRLは、画素から直接学習しながらシミュレーションにおいて、7つのスパース報酬連続制御タスクに対して、SoTA性能とサンプル効率を達成する。
我々の方法のハイライトとして、ILBLはRLPDよりも6.4\times$高い成功率を実現しています。これは、ロボミミックベンチマークの挑戦的なPickPlaceCanタスクにおいて、10のデモと100Kのインタラクションの予算の下で、デモをオーバーサンプリングするアイデアと現代的なRLの改善を組み合わせた強力なメソッドです。
関連論文リスト
- World Models Increase Autonomy in Reinforcement Learning [6.151562278670799]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムである。
MoReFreeエージェントは、リセット不要タスクを処理するために、探索とポリシー学習という2つの重要なメカニズムを適用する。
環境報酬やデモンストレーションへのアクセスなしに、様々なリセットのないタスクに対して優れたデータ効率を示す。
論文 参考訳(メタデータ) (2024-08-19T08:56:00Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Reinforcement Learning in Robotic Motion Planning by Combined
Experience-based Planning and Self-Imitation Learning [7.919213739992465]
高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
本稿では,学習アーキテクチャに経験に基づくプランニングを組み込むSILP+アルゴリズムを提案する。
様々な実験結果から,SILP+は複雑な運動計画タスクにおいて,トレーニング効率が向上し,より安定した成功率が得られることが示された。
論文 参考訳(メタデータ) (2023-06-11T19:47:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。