論文の概要: Model-based Offline Reinforcement Learning with Local Misspecification
- arxiv url: http://arxiv.org/abs/2301.11426v1
- Date: Thu, 26 Jan 2023 21:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:07:18.196541
- Title: Model-based Offline Reinforcement Learning with Local Misspecification
- Title(参考訳): 局所的不特定化を伴うモデルベースオフライン強化学習
- Authors: Kefan Dong, Yannis Flet-Berliac, Allen Nie, Emma Brunskill
- Abstract要約: 本稿では、モデルに基づくオフライン強化学習ポリシーの性能を低くし、動的モデルの誤特定と分布ミスマッチを明示的にキャプチャする。
最適なオフラインポリシー選択のための経験的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 35.75701143290119
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a model-based offline reinforcement learning policy performance
lower bound that explicitly captures dynamics model misspecification and
distribution mismatch and we propose an empirical algorithm for optimal offline
policy selection. Theoretically, we prove a novel safe policy improvement
theorem by establishing pessimism approximations to the value function. Our key
insight is to jointly consider selecting over dynamics models and policies: as
long as a dynamics model can accurately represent the dynamics of the
state-action pairs visited by a given policy, it is possible to approximate the
value of that particular policy. We analyze our lower bound in the LQR setting
and also show competitive performance to previous lower bounds on policy
selection across a set of D4RL tasks.
- Abstract(参考訳): 本稿では,動的モデルの誤特定と分布ミスマッチを明示的に捉えたモデルベースオフライン強化学習ポリシー性能下限を提案し,最適オフラインポリシー選択のための経験的アルゴリズムを提案する。
理論的には, ペシミズム近似を値関数に定め, 新たな安全政策改善定理を実証する。
我々の重要な洞察は、動的モデルとポリシーよりも選択を共同で検討することである: 動的モデルが与えられたポリシーが訪れた状態-作用ペアのダイナミクスを正確に表現できる限り、その特定のポリシーの価値を近似することができる。
我々は、LQR設定における下位境界を分析し、D4RLタスクの集合におけるポリシー選択に対する以前の下位境界に対する競合性能を示す。
関連論文リスト
- SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。
本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。
シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Minimax Model Learning [42.65032356835701]
モデルに基づく強化学習における遷移モデル学習のための新しいオフポリシ損失関数を提案する。
私たちの損失は、分配シフトの修正に重点を置いたオフポリシ政策評価目標に由来します。
論文 参考訳(メタデータ) (2021-03-02T23:16:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。