論文の概要: Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief
- arxiv url: http://arxiv.org/abs/2210.06692v1
- Date: Thu, 13 Oct 2022 03:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:30:13.942560
- Title: Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief
- Title(参考訳): pessimism-modulated dynamics beliefを用いたモデルベースオフライン強化学習
- Authors: Kaiyang Guo and Yunfeng Shao and Yanhui Geng
- Abstract要約: モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
- 参考スコア(独自算出の注目度): 3.0036519884678894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based offline reinforcement learning (RL) aims to find highly rewarding
policy, by leveraging a previously collected static dataset and a dynamics
model. While learned through reuse of static dataset, the dynamics model's
generalization ability hopefully promotes policy learning if properly utilized.
To that end, several works propose to quantify the uncertainty of predicted
dynamics, and explicitly apply it to penalize reward. However, as the dynamics
and the reward are intrinsically different factors in context of MDP,
characterizing the impact of dynamics uncertainty through reward penalty may
incur unexpected tradeoff between model utilization and risk avoidance. In this
work, we instead maintain a belief distribution over dynamics, and
evaluate/optimize policy through biased sampling from the belief. The sampling
procedure, biased towards pessimism, is derived based on an alternating Markov
game formulation of offline RL. We formally show that the biased sampling
naturally induces an updated dynamics belief with policy-dependent reweighting
factor, termed Pessimism-Modulated Dynamics Belief. To improve policy, we
devise an iterative regularized policy optimization algorithm for the game,
with guarantee of monotonous improvement under certain condition. To make
practical, we further devise an offline RL algorithm to approximately find the
solution. Empirical results show that the proposed approach achieves
state-of-the-art performance on a wide range of benchmark tasks.
- Abstract(参考訳): モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
静的データセットの再利用を通じて学習する一方で、ダイナミクスモデルの一般化能力は、適切に利用すればポリシー学習を促進することが望ましい。
そのために、予測力学の不確かさを定量化し、報酬を罰するために明確に適用する研究がいくつか提案されている。
しかし、MDPの文脈では力学と報酬が本質的に異なるため、報酬報酬による力学の不確実性の影響がモデル利用とリスク回避の予期せぬトレードオフを引き起こす可能性がある。
本研究では, ダイナミックス上での信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
ペシミズムに偏ったサンプリング手順は、オフラインRLの交互マルコフゲーム定式化に基づいて導出される。
バイアスドサンプリングは,政策依存的再重み付け因子(pessimism-modulated dynamics belief)を用いて,動的信念の更新を自然に誘導することを示す。
ポリシー改善のために,ゲームに対する反復正規化ポリシー最適化アルゴリズムを考案し,一定の条件下で単調な改善が保証される。
そこで本研究では,オフラインのRLアルゴリズムを用いて解の探索を行う。
実験結果から,提案手法は幅広いベンチマークタスクにおいて最先端のパフォーマンスを実現することが示された。
関連論文リスト
- A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-based Offline Reinforcement Learning with Local Misspecification [35.75701143290119]
本稿では、モデルに基づくオフライン強化学習ポリシーの性能を低くし、動的モデルの誤特定と分布ミスマッチを明示的にキャプチャする。
最適なオフラインポリシー選択のための経験的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T21:26:56Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。