論文の概要: Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation
- arxiv url: http://arxiv.org/abs/2111.14272v1
- Date: Sun, 28 Nov 2021 23:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 16:38:16.404713
- Title: Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation
- Title(参考訳): オフポリシー政策評価における類似する利益を有するサブグループの同定
- Authors: Ramtin Keramati, Omer Gottesman, Leo Anthony Celi, Finale Doshi-Velez,
Emma Brunskill
- Abstract要約: 我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
- 参考スコア(独自算出の注目度): 60.71312668265873
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Off-policy policy evaluation methods for sequential decision making can be
used to help identify if a proposed decision policy is better than a current
baseline policy. However, a new decision policy may be better than a baseline
policy for some individuals but not others. This has motivated a push towards
personalization and accurate per-state estimates of heterogeneous treatment
effects (HTEs). Given the limited data present in many important applications,
individual predictions can come at a cost to accuracy and confidence in such
predictions. We develop a method to balance the need for personalization with
confident predictions by identifying subgroups where it is possible to
confidently estimate the expected difference in a new decision policy relative
to a baseline. We propose a novel loss function that accounts for uncertainty
during the subgroup partitioning phase. In experiments, we show that our method
can be used to form accurate predictions of HTEs where other methods struggle.
- Abstract(参考訳): シーケンシャルな意思決定のための非政治政策評価方法は、提案された決定方針が現在の基本方針よりも優れているかどうかを特定するのに役立つ。
しかし、新しい決定方針は、一部の個人にとって基準方針よりも良いかもしれないが、他の個人はそうではないかもしれない。
これにより、パーソナライゼーションと、ヘテロジニアス治療効果(hte)の州別推定精度が向上した。
多くの重要なアプリケーションに存在する限られたデータを考えると、個々の予測は精度と信頼性を犠牲にすることができる。
本研究は,新たな意思決定方針における期待差をベースラインに対して確実に推定することが可能なサブグループを同定し,個人化の必要性と自信ある予測とのバランスをとる手法を開発する。
サブグループ分割フェーズにおける不確実性を考慮した新しい損失関数を提案する。
実験では,他の手法が苦しむHTEの正確な予測を行うために,本手法が有効であることを示す。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Conformal Off-Policy Prediction [14.83348592874271]
我々は,任意の初期状態から開始した目標ポリシの戻り値に対する信頼区間推定器を作成するための新しい手法を開発した。
私たちの基本的な考え方は、ターゲットポリシーからサンプルされたサブサンプルを生成する擬似ポリシーを設計することにあります。
論文 参考訳(メタデータ) (2022-06-14T09:31:18Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。