論文の概要: How to Spend Your Robot Time: Bridging Kickstarting and Offline
Reinforcement Learning for Vision-based Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2205.03353v1
- Date: Fri, 6 May 2022 16:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 14:24:43.697446
- Title: How to Spend Your Robot Time: Bridging Kickstarting and Offline
Reinforcement Learning for Vision-based Robotic Manipulation
- Title(参考訳): ロボットの時間を延ばす方法:視覚に基づくロボットマニピュレーションのためのブリッジングキックスタートとオフライン強化学習
- Authors: Alex X. Lee, Coline Devin, Jost Tobias Springenberg, Yuxiang Zhou,
Thomas Lampe, Abbas Abdolmaleki, Konstantinos Bousmalis
- Abstract要約: 強化学習(RL)は経験から制御を学習するのに有効であることが示されている。
RLは通常、環境との大量のオンラインインタラクションを必要とします。
準最適政策を再利用することで、ターゲットタスクにおけるオンラインインタラクションを最小化する方法について検討する。
- 参考スコア(独自算出の注目度): 17.562522787934178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been shown to be effective at learning
control from experience. However, RL typically requires a large amount of
online interaction with the environment. This limits its applicability to
real-world settings, such as in robotics, where such interaction is expensive.
In this work we investigate ways to minimize online interactions in a target
task, by reusing a suboptimal policy we might have access to, for example from
training on related prior tasks, or in simulation. To this end, we develop two
RL algorithms that can speed up training by using not only the action
distributions of teacher policies, but also data collected by such policies on
the task at hand. We conduct a thorough experimental study of how to use
suboptimal teachers on a challenging robotic manipulation benchmark on
vision-based stacking with diverse objects. We compare our methods to offline,
online, offline-to-online, and kickstarting RL algorithms. By doing so, we find
that training on data from both the teacher and student, enables the best
performance for limited data budgets. We examine how to best allocate a limited
data budget -- on the target task -- between the teacher and the student
policy, and report experiments using varying budgets, two teachers with
different degrees of suboptimality, and five stacking tasks that require a
diverse set of behaviors. Our analysis, both in simulation and in the real
world, shows that our approach is the best across data budgets, while standard
offline RL from teacher rollouts is surprisingly effective when enough data is
given.
- Abstract(参考訳): 強化学習(rl)は経験からの学習制御に有効であることが示されている。
しかし、RLは通常、環境と大量のオンラインインタラクションを必要とする。
これにより、そのような相互作用が高価であるロボティクスなど、現実の環境への適用性が制限される。
本研究は,対象タスクにおけるオンラインインタラクションを最小化する方法について,例えば,関連する事前タスクのトレーニングやシミュレーションからアクセス可能な準最適ポリシーを再利用することで検討する。
そこで本研究では,教師の政策の行動分布だけでなく,その課題に関する政策によって収集されたデータを用いて,学習を高速化する2つのRLアルゴリズムを開発した。
我々は,視覚に基づく多様な物体の積み重ねに挑戦するロボット操作ベンチマークにおいて,サブオプティカル教師の活用法を徹底的に実験的に検討する。
我々は、オフライン、オンライン、オフラインからオンライン、キックスタートのrlアルゴリズムと比較する。
これにより、教師と生徒の双方からのデータに対するトレーニングによって、限られたデータ予算で最高のパフォーマンスが得られます。
本研究では,教師と生徒の方針を対象とする限られたデータ予算を最適に割り当てる方法について検討し,様々な予算を用いた実験,最適度が異なる2人の教師,多様な行動を必要とする5つの積み重ねタスクについて報告する。
シミュレーションと実世界の双方で分析したところ、我々のアプローチはデータ予算で最高のものであるのに対して、教師のロールアウトから標準のオフラインRLは十分なデータが与えられると驚くほど効果的であることがわかった。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Pre-Training for Robots: Offline RL Enables Learning New Tasks from a
Handful of Trials [97.95400776235736]
新しいタスクを効果的に学習しようとするオフラインRLに基づくフレームワークを提案する。
既存のロボットデータセットの事前トレーニングと、新しいタスクの迅速な微調整と、最大10のデモを組み合わせたものだ。
我々の知る限り、PTRは本物のWidowXロボットで新しいドメインで新しいタスクを学習する最初のRL手法である。
論文 参考訳(メタデータ) (2022-10-11T06:30:53Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - DCUR: Data Curriculum for Teaching via Samples with Reinforcement
Learning [6.9884912034790405]
本稿では,オンライン深層学習を用いた教員教育を行うためのフレームワーク,Data CUrriculum for Reinforcement Learning (DCUR)を提案する。
そして、オフラインのRLを実行するか、少量の自己生成データと組み合わせて教師データを使用することで学習する。
論文 参考訳(メタデータ) (2021-09-15T15:39:46Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。