論文の概要: Predicting Long Term Sequential Policy Value Using Softer Surrogates
- arxiv url: http://arxiv.org/abs/2412.20638v1
- Date: Mon, 30 Dec 2024 01:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:55.371131
- Title: Predicting Long Term Sequential Policy Value Using Softer Surrogates
- Title(参考訳): ソフトサロゲートを用いた長期的政策価値の予測
- Authors: Hyunji Nam, Allen Nie, Ge Gao, Vasilis Syrgkanis, Emma Brunskill,
- Abstract要約: 我々は,新政策の短期的データのみを用いて,新政策の完全な水平価値を見積もる方法について検討する。
HIV治療と敗血症治療の2つの現実的シミュレータを用いた実験結果から,本手法は地平線を待つよりも10倍早く,新たな意思決定方針を情報的に評価できることが示された。
- 参考スコア(独自算出の注目度): 45.9831721774649
- License:
- Abstract: Performing policy evaluation in education, healthcare and online commerce can be challenging, because it can require waiting substantial amounts of time to observe outcomes over the desired horizon of interest. While offline evaluation methods can be used to estimate the performance of a new decision policy from historical data in some cases, such methods struggle when the new policy involves novel actions or is being run in a new decision process with potentially different dynamics. Here we consider how to estimate the full-horizon value of a new decision policy using only short-horizon data from the new policy, and historical full-horizon data from a different behavior policy. We introduce two new estimators for this setting, including a doubly robust estimator, and provide formal analysis of their properties. Our empirical results on two realistic simulators, of HIV treatment and sepsis treatment, show that our methods can often provide informative estimates of a new decision policy ten times faster than waiting for the full horizon, highlighting that it may be possible to quickly identify if a new decision policy, involving new actions, is better or worse than existing past policies.
- Abstract(参考訳): 教育、医療、オンラインコマースにおける政策評価を実行することは、希望する利益の視野で結果を見るのに相当な時間を要するため、困難である。
オフライン評価手法は、過去のデータから新しい意思決定ポリシーの性能を推定するために用いられることがあるが、新しいポリシーが新しい行動に関わる場合や、潜在的に異なるダイナミクスを持つ新しい決定プロセスで実行されている場合、そのような手法は困難である。
ここでは,新政策の短期水平データと異なる行動方針の歴史的全水平データのみを用いて,新政策の完全水平値を推定する方法を検討する。
2つの新しい推定器を導入し、その2倍の頑健な推定器を導入し、それらの特性を公式に解析する。
HIV治療と敗血症治療の2つの現実的シミュレータに関する実証実験の結果、我々の手法は、新しい決定ポリシーが既存の政策よりも良いか悪いかを素早く特定できる可能性が示唆された。
関連論文リスト
- Short-Long Policy Evaluation with Novel Actions [26.182640173932956]
逐次意思決定タスクの短期的政策評価のための新しい設定を提案する。
提案手法は,HIV治療,腎臓透析,バッテリ充電のシミュレーターにおいて,従来よりも有意に優れていた。
また、新しい意思決定ポリシーが過去のポリシーよりも大幅にパフォーマンスが低下する可能性があることを素早く特定することで、AI安全性のアプリケーションに有効な方法を示す。
論文 参考訳(メタデータ) (2024-07-04T06:42:21Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。