論文の概要: Model-Based Offline Planning
- arxiv url: http://arxiv.org/abs/2008.05556v3
- Date: Wed, 17 Mar 2021 17:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:26:11.779777
- Title: Model-Based Offline Planning
- Title(参考訳): モデルに基づくオフライン計画
- Authors: Arthur Argenson, Gabriel Dulac-Arnold
- Abstract要約: 本稿では,計画を通してシステムを直接制御できるモデルを生成するオフライン学習者を提案する。
これにより、システムと対話することなく、データから直接簡単にコントロール可能なポリシが実現できます。
シミュレーションされたシステムに対して,50秒以内のリアルタイムシステムインタラクションから,ほぼ最適な警察を見つけることができるのです。
- 参考スコア(独自算出の注目度): 8.883425700409573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline learning is a key part of making reinforcement learning (RL) useable
in real systems. Offline RL looks at scenarios where there is data from a
system's operation, but no direct access to the system when learning a policy.
Recent work on training RL policies from offline data has shown results both
with model-free policies learned directly from the data, or with planning on
top of learnt models of the data. Model-free policies tend to be more
performant, but are more opaque, harder to command externally, and less easy to
integrate into larger systems. We propose an offline learner that generates a
model that can be used to control the system directly through planning. This
allows us to have easily controllable policies directly from data, without ever
interacting with the system. We show the performance of our algorithm,
Model-Based Offline Planning (MBOP) on a series of robotics-inspired tasks, and
demonstrate its ability leverage planning to respect environmental constraints.
We are able to find near-optimal polices for certain simulated systems from as
little as 50 seconds of real-time system interaction, and create zero-shot
goal-conditioned policies on a series of environments. An accompanying video
can be found here: https://youtu.be/nxGGHdZOFts
- Abstract(参考訳): オフライン学習は、実システムで強化学習(RL)を利用可能にするための重要な部分である。
オフラインRLは、システムの運用からのデータがあるが、ポリシーを学ぶ際にシステムに直接アクセスしないシナリオを考察する。
オフラインデータからRLポリシーをトレーニングする最近の研究は、データから直接学習したモデルフリーポリシーや、学習したデータモデル上での計画の両方の結果を示している。
モデルフリーのポリシはパフォーマンスがよい傾向があるが、より不透明で、外部からの指示が難しく、より大きなシステムへの統合が容易ではない。
本稿では,計画を通してシステムを直接制御できるモデルを生成するオフライン学習者を提案する。
これにより、システムと対話することなく、データから直接ポリシーを制御できます。
本稿では,ロボットによる一連のタスクにおけるモデルベースオフライン計画(MBOP)の性能を示し,その能力が環境制約を尊重するためにプランニングを活用することを実証する。
50秒以内のリアルタイムシステムインタラクションから、特定のシミュレートシステムの至近の警察を見つけることができ、一連の環境でゼロショットの目標条件付きポリシーを作成することができます。
https://youtu.be/nxgghdzofts.com/nxgghdzofts
関連論文リスト
- Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。
既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。
オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:12:34Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Visual Foresight With a Local Dynamics Model [1.370633147306388]
単一ステップ操作プリミティブのための状態遷移関数を効率的に学習するローカルダイナミクスモデル(LDM)を提案する。
LDMとモデルフリーなポリシー学習を組み合わせることで、ワンステップのルックアヘッド計画を用いて複雑な操作タスクを解くことができるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2022-06-29T17:58:14Z) - Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。
オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。
実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-05-16T05:00:54Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。