論文の概要: Off-Policy Evaluation with Policy-Dependent Optimization Response
- arxiv url: http://arxiv.org/abs/2202.12958v1
- Date: Fri, 25 Feb 2022 20:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:31:55.763890
- Title: Off-Policy Evaluation with Policy-Dependent Optimization Response
- Title(参考訳): 政策依存型最適化応答を用いたオフポリティ評価
- Authors: Wenshuo Guo, Michael I. Jordan, Angela Zhou
- Abstract要約: 我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 90.28758112893054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intersection of causal inference and machine learning for decision-making
is rapidly expanding, but the default decision criterion remains an
\textit{average} of individual causal outcomes across a population. In
practice, various operational restrictions ensure that a decision-maker's
utility is not realized as an \textit{average} but rather as an \textit{output}
of a downstream decision-making problem (such as matching, assignment, network
flow, minimizing predictive risk). In this work, we develop a new framework for
off-policy evaluation with a \textit{policy-dependent} linear optimization
response: causal outcomes introduce stochasticity in objective function
coefficients. In this framework, a decision-maker's utility depends on the
policy-dependent optimization, which introduces a fundamental challenge of
\textit{optimization} bias even for the case of policy evaluation. We construct
unbiased estimators for the policy-dependent estimand by a perturbation method.
We also discuss the asymptotic variance properties for a set of plug-in
regression estimators adjusted to be compatible with that perturbation method.
Lastly, attaining unbiased policy evaluation allows for policy optimization,
and we provide a general algorithm for optimizing causal interventions. We
corroborate our theoretical results with numerical simulations.
- Abstract(参考訳): 因果推論と意思決定のための機械学習の交点が急速に拡大しているが、デフォルトの決定基準は、人口全体にわたる個々の因果結果の \textit{average} のままである。
実際には、さまざまな運用上の制限により、意思決定者のユーティリティが、下流の意思決定問題(マッチング、代入、ネットワークフロー、予測リスクの最小化など)の \textit{average} として実現されることが保証される。
本研究では, 目的関数係数に確率性を導入する因果的結果について, \textit{policy-dependent} 線形最適化応答を用いて, オフポリシー評価のための新しいフレームワークを開発した。
このフレームワークでは、意思決定者のユーティリティはポリシー依存の最適化に依存しており、ポリシー評価の場合でさえ、 \textit{optimization} バイアスの根本的な挑戦をもたらす。
摂動法による政策依存推定のための非バイアス推定器を構築する。
また、この摂動法に適合するように調整された一連のプラグイン回帰推定器の漸近変動特性についても論じる。
最後に、不偏ポリシー評価を達成することで、政策最適化が可能となり、因果的介入を最適化するための一般的なアルゴリズムを提供する。
我々は数値シミュレーションで理論結果を裏付ける。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。