論文の概要: Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation
- arxiv url: http://arxiv.org/abs/2303.01076v1
- Date: Thu, 2 Mar 2023 08:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:24:43.364706
- Title: Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation
- Title(参考訳): 保守的オフライン政策評価のための幻覚的adversarial control
- Authors: Jonas Rothfuss, Bhavya Sukhija, Tobias Birchler, Parnian Kassraie,
Andreas Krause
- Abstract要約: 本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
- 参考スコア(独自算出の注目度): 64.94009515033984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the problem of conservative off-policy evaluation (COPE) where given
an offline dataset of environment interactions, collected by other agents, we
seek to obtain a (tight) lower bound on a policy's performance. This is crucial
when deciding whether a given policy satisfies certain minimal
performance/safety criteria before it can be deployed in the real world. To
this end, we introduce HAMBO, which builds on an uncertainty-aware learned
model of the transition dynamics. To form a conservative estimate of the
policy's performance, HAMBO hallucinates worst-case trajectories that the
policy may take, within the margin of the models' epistemic confidence regions.
We prove that the resulting COPE estimates are valid lower bounds, and, under
regularity conditions, show their convergence to the true expected return.
Finally, we discuss scalable variants of our approach based on Bayesian Neural
Networks and empirically demonstrate that they yield reliable and tight lower
bounds in various continuous control environments.
- Abstract(参考訳): 本研究では,他のエージェントが収集した環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の問題について検討する。
これは、特定のポリシーが実際の世界にデプロイされる前に、パフォーマンス/安全性の基準をある程度満たすかどうかを決める場合に重要である。
この目的のために,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを導入する。
政策のパフォーマンスを保守的に見積もるために、HAMBOは、モデルがエピステマ性信頼領域のマージン内において、政策が取るであろう最悪の事例の軌跡を幻覚する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
最後に,ベイズ型ニューラルネットワークに基づくスケーラブルなアプローチの変種について考察し,様々な連続制御環境において信頼性と厳密な下界をもたらすことを実証的に示す。
関連論文リスト
- Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Matrix Estimation for Offline Reinforcement Learning with Low-Rank
Structure [10.968373699696455]
エージェントが環境と相互作用せず、行動ポリシーを用いて収集されたオフラインデータに頼らなければならないオフライン強化学習(RL)について考察する。
事前の作業は、評価対象方針が行動方針によってカバーされている場合に、政策評価を保証する。
そこで本稿では,低ランク構造を利用したオフラインポリシ評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-24T23:49:06Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Model-Free and Model-Based Policy Evaluation when Causality is Uncertain [7.858296711223292]
政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
論文 参考訳(メタデータ) (2022-04-02T23:40:15Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。