論文の概要: Policy Learning with Asymmetric Counterfactual Utilities
- arxiv url: http://arxiv.org/abs/2206.10479v3
- Date: Tue, 28 Nov 2023 16:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:39:08.740113
- Title: Policy Learning with Asymmetric Counterfactual Utilities
- Title(参考訳): 非対称相反効用による政策学習
- Authors: Eli Ben-Michael and Kosuke Imai and Zhichao Jiang
- Abstract要約: 非対称対実効関数を用いた最適政策学習について検討する。
最大電力損失を最小にすることで、最小限の決定ルールを導出する。
中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることが示される。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-driven decision making plays an important role even in high stakes
settings like medicine and public policy. Learning optimal policies from
observed data requires a careful formulation of the utility function whose
expected value is maximized across a population. Although researchers typically
use utilities that depend on observed outcomes alone, in many settings the
decision maker's utility function is more properly characterized by the joint
set of potential outcomes under all actions. For example, the Hippocratic
principle to "do no harm" implies that the cost of causing death to a patient
who would otherwise survive without treatment is greater than the cost of
forgoing life-saving treatment. We consider optimal policy learning with
asymmetric counterfactual utility functions of this form that consider the
joint set of potential outcomes. We show that asymmetric counterfactual
utilities lead to an unidentifiable expected utility function, and so we first
partially identify it. Drawing on statistical decision theory, we then derive
minimax decision rules by minimizing the maximum expected utility loss relative
to different alternative policies. We show that one can learn minimax loss
decision rules from observed data by solving intermediate classification
problems, and establish that the finite sample excess expected utility loss of
this procedure is bounded by the regret of these intermediate classifiers. We
apply this conceptual framework and methodology to the decision about whether
or not to use right heart catheterization for patients with possible pulmonary
hypertension.
- Abstract(参考訳): データ駆動意思決定は、医療や公共政策のような高リスク設定においても重要な役割を果たす。
観測データから最適政策を学ぶには、人口間で期待値が最大化される効用関数を慎重に定式化する必要がある。
研究者は通常、観察結果のみに依存するユーティリティを使用するが、多くの環境では、意思決定者のユーティリティ機能は、すべてのアクションの下での潜在的な結果の共同セットによってより適切に特徴付けられる。
例えば、「害を及ぼさない」というヒポクラテスの原則は、治療なしで生き残る患者に死をもたらすコストが、救命治療の費用よりも大きいことを意味する。
本稿では,この形態の非対称対実効関数を用いた最適政策学習について考察する。
非対称な反ファクト的ユーティリティが期待できないユーティリティ機能につながることを示すので、まずそれを部分的に同定する。
統計的決定理論に基づき、異なる代替政策に対する最大公益損失を最小化することにより、ミニマックス決定規則を導出する。
中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることを示し、これらの中間分類器の後悔によって、この手順の有限サンプル過剰な実用的損失が有界であることを示す。
この概念的枠組みと方法論を,肺高血圧の可能性を秘めた患者に対して,右心カテーテルを使用すべきか否かの判断に応用する。
関連論文リスト
- Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究では, 因果同定, 統計的分散推定, および最適処理規則のロバスト推定について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Inference for relative sparsity [0.0]
医学応用においては,不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論が重要である。
相対的な空間的目的は不安定で二項作用の場合において無限に推定される不注意な値関数に依存するため、推論は困難である。
これらの課題に対処するため、相対的疎度目標内に重み付けされた信頼地域政策最適化機能を組み込み、適応的相対的疎度ペナルティを実装し、選択後推論のためのサンプル分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-25T17:14:45Z) - Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。
この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:29:25Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Median Optimal Treatment Regimes [7.241149193573696]
コンディショナーが治療中よりも高い個人を治療する新しいメディアン最適治療体制を提案します。
これにより、同じグループの個人に対する最適な決定が、グループのごく一部に過度に影響されないことが保証される。
本稿では,政策の全体的中央値処理結果を要約した新しい評価尺度ACME(Average Conditional Median Effect)を紹介する。
論文 参考訳(メタデータ) (2021-03-02T15:26:20Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。