論文の概要: A Workflow for Offline Model-Free Robotic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.10813v2
- Date: Thu, 23 Sep 2021 17:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 12:41:17.523794
- Title: A Workflow for Offline Model-Free Robotic Reinforcement Learning
- Title(参考訳): オフラインモデルフリーロボット強化学習のためのワークフロー
- Authors: Aviral Kumar, Anikait Singh, Stephen Tian, Chelsea Finn, Sergey Levine
- Abstract要約: オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
- 参考スコア(独自算出の注目度): 117.07743713715291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) enables learning control policies by
utilizing only prior experience, without any online interaction. This can allow
robots to acquire generalizable skills from large and diverse datasets, without
any costly or unsafe online data collection. Despite recent algorithmic
advances in offline RL, applying these methods to real-world problems has
proven challenging. Although offline RL methods can learn from prior data,
there is no clear and well-understood process for making various design
choices, from model architecture to algorithm hyperparameters, without actually
evaluating the learned policies online. In this paper, our aim is to develop a
practical workflow for using offline RL analogous to the relatively
well-understood workflows for supervised learning problems. To this end, we
devise a set of metrics and conditions that can be tracked over the course of
offline training, and can inform the practitioner about how the algorithm and
model architecture should be adjusted to improve final performance. Our
workflow is derived from a conceptual understanding of the behavior of
conservative offline RL algorithms and cross-validation in supervised learning.
We demonstrate the efficacy of this workflow in producing effective policies
without any online tuning, both in several simulated robotic learning scenarios
and for three tasks on two distinct real robots, focusing on learning
manipulation skills with raw image observations with sparse binary rewards.
Explanatory video and additional results can be found at
sites.google.com/view/offline-rl-workflow
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することにより、学習制御ポリシを可能にする。
これにより、ロボットは、高価な、あるいは安全でないオンラインデータ収集なしに、大規模で多様なデータセットから一般化可能なスキルを取得できる。
近年のオフラインRLのアルゴリズム的な進歩にもかかわらず、これらの手法を現実世界の問題に適用することは困難であることが証明された。
オフラインのRLメソッドは事前のデータから学習することができるが、学習したポリシーをオンラインで実際に評価することなく、モデルアーキテクチャからアルゴリズムハイパーパラメータまで、さまざまな設計選択を行うための明確で理解されたプロセスはない。
本稿では,教師付き学習問題に対する比較的よく理解されたワークフローに類似したオフラインRLを用いた実践的ワークフローを開発することを目的とする。
この目的のために、オフライントレーニングを通じて追跡可能なメトリクスと条件のセットを考案し、最終的なパフォーマンスを改善するためにアルゴリズムとモデルアーキテクチャをどのように調整すべきかを実践者に知らせる。
我々のワークフローは、保守的なオフラインRLアルゴリズムの動作と教師あり学習におけるクロスバリデーションの概念的理解から導かれる。
本研究では,複数のシミュレーションロボット学習シナリオと2つの異なる実ロボットにおける3つのタスクの両方において,オンラインチューニングを伴わない効果的なポリシー作成において,このワークフローの有効性を実証する。
説明ビデオと追加結果はsites.google.com/view/offline-rl-workflowで見ることができる。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - How to Spend Your Robot Time: Bridging Kickstarting and Offline
Reinforcement Learning for Vision-based Robotic Manipulation [17.562522787934178]
強化学習(RL)は経験から制御を学習するのに有効であることが示されている。
RLは通常、環境との大量のオンラインインタラクションを必要とします。
準最適政策を再利用することで、ターゲットタスクにおけるオンラインインタラクションを最小化する方法について検討する。
論文 参考訳(メタデータ) (2022-05-06T16:38:59Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。