論文の概要: Offline Policy Selection under Uncertainty
- arxiv url: http://arxiv.org/abs/2012.06919v1
- Date: Sat, 12 Dec 2020 23:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:58:29.040172
- Title: Offline Policy Selection under Uncertainty
- Title(参考訳): 不確実性下におけるオフライン政策選択
- Authors: Mengjiao Yang, Bo Dai, Ofir Nachum, George Tucker, Dale Schuurmans
- Abstract要約: 我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
- 参考スコア(独自算出の注目度): 113.57441913299868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presence of uncertainty in policy evaluation significantly complicates
the process of policy ranking and selection in real-world settings. We formally
consider offline policy selection as learning preferences over a set of policy
prospects given a fixed experience dataset. While one can select or rank
policies based on point estimates of their policy values or high-confidence
intervals, access to the full distribution over one's belief of the policy
value enables more flexible selection algorithms under a wider range of
downstream evaluation metrics. We propose BayesDICE for estimating this belief
distribution in terms of posteriors of distribution correction ratios derived
from stochastic constraints (as opposed to explicit likelihood, which is not
available). Empirically, BayesDICE is highly competitive to existing
state-of-the-art approaches in confidence interval estimation. More
importantly, we show how the belief distribution estimated by BayesDICE may be
used to rank policies with respect to any arbitrary downstream policy selection
metric, and we empirically demonstrate that this selection procedure
significantly outperforms existing approaches, such as ranking policies
according to mean or high-confidence lower bound value estimates.
- Abstract(参考訳): 政策評価における不確実性の存在は、実環境における政策ランキングと選択の過程を著しく複雑にする。
我々は、オフラインポリシーの選択を、一定の経験データセットが与えられた政策予測のセットよりも学習の選好として公式に検討する。
政策値のポイント推定値や高信頼区間に基づいて政策を選択したり、ランク付けしたりできるが、政策値に対する信念の完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
本稿では,確率的制約から導かれる分布補正比の後方から,この信念分布を推定するためのベイズDICEを提案する。
ベイズDICEは、信頼区間推定における既存の最先端アプローチと非常に競争力がある。
さらに,BayesDICEが推定した信念分布が任意の下流政策選択指標に対する政策のランク付けにどのように用いられるかを示し,この選択手順が平均値や高信頼度下限値の推定値など,既存のアプローチを著しく上回っていることを実証的に示す。
関連論文リスト
- Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Confident Off-Policy Evaluation and Selection through Self-Normalized
Importance Weighting [15.985182419152197]
本稿では,任意のターゲットポリシーの値に対する下位境界を計算するための新しい手法を提案する。
この新しいアプローチは、多くの合成データセットと実際のデータセットに基づいて評価されており、主要な競合相手よりも優れていることが判明している。
論文 参考訳(メタデータ) (2020-06-18T12:15:37Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。