論文の概要: AWAC: Accelerating Online Reinforcement Learning with Offline Datasets
- arxiv url: http://arxiv.org/abs/2006.09359v6
- Date: Sat, 24 Apr 2021 22:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:22:20.443291
- Title: AWAC: Accelerating Online Reinforcement Learning with Offline Datasets
- Title(参考訳): AWAC:オフラインデータセットによるオンライン強化学習の促進
- Authors: Ashvin Nair, Abhishek Gupta, Murtaza Dalal, Sergey Levine
- Abstract要約: 提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
- 参考スコア(独自算出の注目度): 84.94748183816547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) provides an appealing formalism for learning
control policies from experience. However, the classic active formulation of RL
necessitates a lengthy active exploration process for each behavior, making it
difficult to apply in real-world settings such as robotic control. If we can
instead allow RL algorithms to effectively use previously collected data to aid
the online learning process, such applications could be made substantially more
practical: the prior data would provide a starting point that mitigates
challenges due to exploration and sample complexity, while the online training
enables the agent to perfect the desired skill. Such prior data could either
constitute expert demonstrations or sub-optimal prior data that illustrates
potentially useful transitions. While a number of prior methods have either
used optimal demonstrations to bootstrap RL, or have used sub-optimal data to
train purely offline, it remains exceptionally difficult to train a policy with
offline data and actually continue to improve it further with online RL. In
this paper we analyze why this problem is so challenging, and propose an
algorithm that combines sample efficient dynamic programming with maximum
likelihood policy updates, providing a simple and effective framework that is
able to leverage large amounts of offline data and then quickly perform online
fine-tuning of RL policies. We show that our method, advantage weighted actor
critic (AWAC), enables rapid learning of skills with a combination of prior
demonstration data and online experience. We demonstrate these benefits on
simulated and real-world robotics domains, including dexterous manipulation
with a real multi-fingered hand, drawer opening with a robotic arm, and
rotating a valve. Our results show that incorporating prior data can reduce the
time required to learn a range of robotic skills to practical time-scales.
- Abstract(参考訳): 強化学習(rl)は経験から制御ポリシーを学ぶための魅力的な形式を提供する。
しかし、古典的なRLのアクティブな定式化は、それぞれの行動に長いアクティブな探索プロセスを必要とするため、ロボット制御のような現実世界の環境では適用が困難である。
オンライン学習プロセスを支援するために、RLアルゴリズムが効果的に収集されたデータを使用することができれば、そのようなアプリケーションはより実用的なものになります。
このような事前データは、専門家によるデモンストレーションや、潜在的に有用な移行を示すサブ最適事前データを構成することができる。
以前の多くの手法では、RLのブートストラップに最適なデモを使ったり、純粋にオフラインでトレーニングするために準最適データを使用したりしていたが、オフラインデータでポリシーをトレーニングすることは極めて困難であり、オンラインRLでは改善が続けられている。
本稿では,この課題がなぜ難しいのかを分析し,サンプルの効率的な動的プログラミングと最大可能性ポリシー更新を組み合わせるアルゴリズムを提案し,大量のオフラインデータを活用し,rlポリシーのオンライン微調整を迅速に行うための,シンプルで効果的なフレームワークを提供する。
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの迅速な学習を可能にする。
シミュレーションや実世界のロボット工学の領域では、実際の多指ハンドによるデクスター操作、ロボットアームによる引き出し開口、バルブの回転など、これらの利点を実証する。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることがわかった。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。