論文の概要: High-Confidence Off-Policy (or Counterfactual) Variance Estimation
- arxiv url: http://arxiv.org/abs/2101.09847v1
- Date: Mon, 25 Jan 2021 01:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:03:32.072116
- Title: High-Confidence Off-Policy (or Counterfactual) Variance Estimation
- Title(参考訳): 高信頼オフポリティ(または偽物)変動推定
- Authors: Yash Chandak, Shiv Shankar, Philip S. Thomas
- Abstract要約: 新たな方針の行動に対する信頼性の高い保証が,展開前に提供されることが重要である。
高リスクアプリケーションでは、リターンのばらつきの信頼性の高いオフポリシ推定が同様に重要です。
- 参考スコア(独自算出の注目度): 35.74756843352921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sequential decision-making systems leverage data collected using prior
policies to propose a new policy. For critical applications, it is important
that high-confidence guarantees on the new policy's behavior are provided
before deployment, to ensure that the policy will behave as desired. Prior
works have studied high-confidence off-policy estimation of the expected
return, however, high-confidence off-policy estimation of the variance of
returns can be equally critical for high-risk applications. In this paper, we
tackle the previously open problem of estimating and bounding, with high
confidence, the variance of returns from off-policy data
- Abstract(参考訳): 多くの連続的な意思決定システムは、以前のポリシーを使用して収集されたデータを利用して新しいポリシーを提案します。
重要なアプリケーションでは、ポリシーが必要に応じて振る舞うことを保証するために、デプロイ前に新しいポリシーの振舞いに対する高い信頼性を保証することが重要です。
先行研究は、期待リターンの高信頼オフポリシー推定を研究してきたが、高リスクアプリケーションでは、リターンの分散の高信頼オフポリシー推定が等しく重要である。
本稿では,オフポリシーデータからのリターンのばらつきを高い信頼性で推定し,バウンディングするという,従来から開かれた問題に取り組みます。
関連論文リスト
- CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。
既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。
本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文 参考訳(メタデータ) (2024-08-21T21:38:03Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。