Fugu-MT 論文翻訳(概要): Predicting Long Term Sequential Policy Value Using Softer Surrogates

論文の概要: Predicting Long Term Sequential Policy Value Using Softer Surrogates

arxiv url: http://arxiv.org/abs/2412.20638v1
Date: Mon, 30 Dec 2024 01:01:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.683885
Title: Predicting Long Term Sequential Policy Value Using Softer Surrogates
Title（参考訳）: ソフトサロゲートを用いた長期的政策価値の予測
Authors: Hyunji Nam, Allen Nie, Ge Gao, Vasilis Syrgkanis, Emma Brunskill,
Abstract要約: 我々は,新政策の短期的データのみを用いて,新政策の完全な水平価値を見積もる方法について検討する。 HIV治療と敗血症治療の2つの現実的シミュレータを用いた実験結果から,本手法は地平線を待つよりも10倍早く,新たな意思決定方針を情報的に評価できることが示された。
参考スコア（独自算出の注目度）: 45.9831721774649
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Performing policy evaluation in education, healthcare and online commerce can be challenging, because it can require waiting substantial amounts of time to observe outcomes over the desired horizon of interest. While offline evaluation methods can be used to estimate the performance of a new decision policy from historical data in some cases, such methods struggle when the new policy involves novel actions or is being run in a new decision process with potentially different dynamics. Here we consider how to estimate the full-horizon value of a new decision policy using only short-horizon data from the new policy, and historical full-horizon data from a different behavior policy. We introduce two new estimators for this setting, including a doubly robust estimator, and provide formal analysis of their properties. Our empirical results on two realistic simulators, of HIV treatment and sepsis treatment, show that our methods can often provide informative estimates of a new decision policy ten times faster than waiting for the full horizon, highlighting that it may be possible to quickly identify if a new decision policy, involving new actions, is better or worse than existing past policies.
Abstract（参考訳）: 教育、医療、オンラインコマースにおける政策評価を実行することは、希望する利益の視野で結果を見るのに相当な時間を要するため、困難である。オフライン評価手法は、過去のデータから新しい意思決定ポリシーの性能を推定するために用いられることがあるが、新しいポリシーが新しい行動に関わる場合や、潜在的に異なるダイナミクスを持つ新しい決定プロセスで実行されている場合、そのような手法は困難である。ここでは,新政策の短期水平データと異なる行動方針の歴史的全水平データのみを用いて,新政策の完全水平値を推定する方法を検討する。 2つの新しい推定器を導入し、その2倍の頑健な推定器を導入し、それらの特性を公式に解析する。 HIV治療と敗血症治療の2つの現実的シミュレータに関する実証実験の結果、我々の手法は、新しい決定ポリシーが既存の政策よりも良いか悪いかを素早く特定できる可能性が示唆された。

関連論文リスト

Off-Policy Evaluation and Learning for the Future under Non-Stationarity [18.657003350333298]
今後のオフ政治評価(F-OPE)と学習(F-OPL)の新たな課題について検討する。私たちのゴールは、前月の古い方針で収集されたデータを使って、来月の政策価値を見積り、最適化することにあります。既存の方法は定常性を仮定するか、制限的な報酬モデリングの仮定に依存し、大きなバイアスをもたらす。
論文参考訳（メタデータ） (2025-06-25T13:31:46Z)
Short-Long Policy Evaluation with Novel Actions [26.182640173932956]
逐次意思決定タスクの短期的政策評価のための新しい設定を提案する。提案手法は,HIV治療,腎臓透析,バッテリ充電のシミュレーターにおいて,従来よりも有意に優れていた。また、新しい意思決定ポリシーが過去のポリシーよりも大幅にパフォーマンスが低下する可能性があることを素早く特定することで、AI安全性のアプリケーションに有効な方法を示す。
論文参考訳（メタデータ） (2024-07-04T06:42:21Z)
OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文参考訳（メタデータ） (2024-05-27T23:51:20Z)
Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文参考訳（メタデータ） (2023-04-05T16:45:11Z)
Identification of Subgroups With Similar Benefits in Off-Policy Policy Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文参考訳（メタデータ） (2021-11-28T23:19:12Z)
Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。 Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。 Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文参考訳（メタデータ） (2021-10-28T04:16:56Z)
Estimating the Long-Term Effects of Novel Treatments [22.67249938461999]
政策立案者は通常、新規治療の長期的な効果を見積りたいという問題に直面している。長期効果が多数の短期プロキシを介してチャネルされることを想定したサロゲートベースのアプローチを提案する。
論文参考訳（メタデータ） (2021-03-15T13:56:48Z)
Targeting for long-term outcomes [1.7205106391379026]
意思決定者は、長期的にのみ観察される結果を最大化するために、介入を標的にしたい場合が多い。ここでは、欠落した長期的成果を暗示するために、統計的代理と政策学習文献に基づいて構築する。 The Boston Globeにおける2つの大規模プロアクティブチャーン管理実験に本手法を適用した。
論文参考訳（メタデータ） (2020-10-29T18:31:17Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文参考訳（メタデータ） (2020-06-06T15:52:05Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。