論文の概要: Offline Policy Comparison with Confidence: Benchmarks and Baselines
- arxiv url: http://arxiv.org/abs/2205.10739v1
- Date: Sun, 22 May 2022 04:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 05:25:37.144084
- Title: Offline Policy Comparison with Confidence: Benchmarks and Baselines
- Title(参考訳): 信頼とオフライン政策の比較:ベンチマークとベースライン
- Authors: Anurag Koul, Mariano Phielipp and Alan Fern
- Abstract要約: OPC with Confidence (OPCC) のベンチマークを作成し、オフラインの強化学習からデータセットにポリシー比較クエリのセットを追加する。
また,モデルベースラインのクラスに対するリスク対カバレッジトレードオフの実証評価を行った。
- 参考スコア(独自算出の注目度): 28.775565917880915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision makers often wish to use offline historical data to compare
sequential-action policies at various world states. Importantly, computational
tools should produce confidence values for such offline policy comparison (OPC)
to account for statistical variance and limited data coverage. Nevertheless,
there is little work that directly evaluates the quality of confidence values
for OPC. In this work, we address this issue by creating benchmarks for OPC
with Confidence (OPCC), derived by adding sets of policy comparison queries to
datasets from offline reinforcement learning. In addition, we present an
empirical evaluation of the risk versus coverage trade-off for a class of
model-based baselines. In particular, the baselines learn ensembles of dynamics
models, which are used in various ways to produce simulations for answering
queries with confidence values. While our results suggest advantages for
certain baseline variations, there appears to be significant room for
improvement in future work.
- Abstract(参考訳): 意思決定者は、オフラインの履歴データを使用して、様々な世界の州のシーケンシャルアクションポリシーを比較することを望んでいる。
重要なことは、計算ツールが統計的分散と限られたデータカバレッジを考慮するために、そのようなオフラインポリシー比較(OPC)の信頼性値を生成することである。
それでも、OPCの信頼性値の質を直接評価する作業はほとんどない。
本研究では、オフライン強化学習からデータセットにポリシー比較クエリのセットを追加することで、OPCC(OPC with Confidence)のベンチマークを作成することでこの問題に対処する。
さらに,モデルベースラインのクラスに対して,リスクとカバレッジのトレードオフを実証的に評価する。
特に、ベースラインは動的モデルのアンサンブルを学習し、信頼性のあるクエリに応答するシミュレーションを作成するために様々な方法で使用される。
結果から,一定のベースライン変動の利点が示唆されるが,今後の作業改善の余地は大きいと思われる。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Offline Policy Comparison under Limited Historical Agent-Environment
Interactions [0.0]
強化学習システムの現実的な応用における政策評価の課題に対処する。
我々は,利用可能な歴史データに基づいて,政策比較,すなわち,その価値の観点から,政策のランク付けを行うことを提案する。
論文 参考訳(メタデータ) (2021-06-07T19:51:00Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。