論文の概要: Model Generation with Provable Coverability for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.00316v1
- Date: Wed, 1 Jun 2022 08:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:47:23.064739
- Title: Model Generation with Provable Coverability for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための可読性を有するモデル生成
- Authors: Chengxing Jia and Hao Yin and Chenxiao Gao and Tian Xu and Lei Yuan
and Zongzhang Zhang and Yang Yu
- Abstract要約: 動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.333861814143718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based offline optimization with dynamics-aware policy provides a new
perspective for policy learning and out-of-distribution generalization, where
the learned policy could adapt to different dynamics enumerated at the training
stage. But due to the limitation under the offline setting, the learned model
could not mimic real dynamics well enough to support reliable
out-of-distribution exploration, which still hinders policy to generalize well.
To narrow the gap, previous works roughly ensemble randomly initialized models
to better approximate the real dynamics. However, such practice is costly and
inefficient, and provides no guarantee on how well the real dynamics could be
approximated by the learned models, which we name coverability in this paper.
We actively address this issue by generating models with provable ability to
cover real dynamics in an efficient and controllable way. To that end, we
design a distance metric for dynamic models based on the occupancy of policies
under the dynamics, and propose an algorithm to generate models optimizing
their coverage for the real dynamics. We give a theoretical analysis on the
model generation process and proves that our algorithm could provide enhanced
coverability. As a downstream task, we train a dynamics-aware policy with minor
or no conservative penalty, and experiments demonstrate that our algorithm
outperforms prior offline methods on existing offline RL benchmarks. We also
discover that policies learned by our method have better zero-shot transfer
performance, implying their better generalization.
- Abstract(参考訳): ダイナミックス対応ポリシーを用いたモデルベースのオフライン最適化は、学習されたポリシーがトレーニング段階で列挙された異なるダイナミクスに適応できるような、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン設定の制約のため、学習されたモデルは、信頼できる分散探索をサポートするのに十分な実際のダイナミクスを模倣できなかった。
ギャップを狭めるため、以前の作品はランダム初期化モデルを概ねアンサンブルし、実際のダイナミクスをよりよく近似した。
しかし、そのような実践は費用がかかり、非効率であり、本論文でカバー可能性と呼ぶ学習モデルによって実際のダイナミクスがいかによく近似できるかは保証されていない。
我々は、実力学を効率的かつ制御可能な方法でカバーできる証明可能なモデルを生成することで、この問題に積極的に対処する。
そこで本研究では,ダイナミックスの下でのポリシーの占有度に基づいて,動的モデルの距離メトリックを設計し,実際のダイナミックスのカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
モデル生成過程に関する理論的解析を行い,提案アルゴリズムが適用可能性の向上を証明した。
ダウンストリームタスクとして,従来のオフラインRLベンチマークにおいて,我々のアルゴリズムが従来のオフライン手法よりも優れていることを示す実験を行った。
また,本手法で学習したポリシーはゼロショット転送性能が向上し,その一般化が示唆されることがわかった。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。
本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文 参考訳(メタデータ) (2022-08-30T19:03:48Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。