論文の概要: Finetuning Offline World Models in the Real World
- arxiv url: http://arxiv.org/abs/2310.16029v1
- Date: Tue, 24 Oct 2023 17:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:27:29.795842
- Title: Finetuning Offline World Models in the Real World
- Title(参考訳): 現実世界でオフラインのモデルを微調整する
- Authors: Yunhai Feng, Nicklas Hansen, Ziyan Xiong, Chandramouli Rajagopalan,
Xiaolong Wang
- Abstract要約: 強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
- 参考スコア(独自算出の注目度): 13.46766121896684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) is notoriously data-inefficient, which makes
training on a real robot difficult. While model-based RL algorithms (world
models) improve data-efficiency to some extent, they still require hours or
days of interaction to learn skills. Recently, offline RL has been proposed as
a framework for training RL policies on pre-existing datasets without any
online interaction. However, constraining an algorithm to a fixed dataset
induces a state-action distribution shift between training and inference, and
limits its applicability to new tasks. In this work, we seek to get the best of
both worlds: we consider the problem of pretraining a world model with offline
data collected on a real robot, and then finetuning the model on online data
collected by planning with the learned model. To mitigate extrapolation errors
during online interaction, we propose to regularize the planner at test-time by
balancing estimated returns and (epistemic) model uncertainty. We evaluate our
method on a variety of visuo-motor control tasks in simulation and on a real
robot, and find that our method enables few-shot finetuning to seen and unseen
tasks even when offline data is limited. Videos, code, and data are available
at https://yunhaifeng.com/FOWM .
- Abstract(参考訳): 強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にする。
モデルベースのRLアルゴリズム(世界モデル)はデータ効率をある程度改善するが、スキルを学ぶには数時間や数日のインタラクションが必要である。
最近、オフラインRLは、オンラインインタラクションなしで既存のデータセットに対するRLポリシーをトレーニングするためのフレームワークとして提案されている。
しかし、アルゴリズムを固定データセットに制約すると、トレーニングと推論の間に状態-作用分布のシフトが生じ、その適用性は新しいタスクに制限される。
我々は,実ロボット上で収集したオフラインデータを用いて世界モデルを事前学習し,学習したモデルを用いて計画したオンラインデータに基づいてモデルを微調整する問題を考える。
オンラインインタラクションにおける外挿誤差を軽減するため,評価されたリターンとモデルの不確実性のバランスをとることで,テスト時のプランナの正規化を提案する。
本手法は,シミュレーションおよび実ロボットにおける様々なビジュオモータ制御タスクについて評価し,オフラインデータに制限がある場合でも,数発のファインタニングが可能であることが確認された。
ビデオ、コード、データはhttps://yunhaifeng.com/FOWM で公開されている。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。