Fugu-MT 論文翻訳(概要): Policy Learning with Distributional Welfare

論文の概要: Policy Learning with Distributional Welfare

arxiv url: http://arxiv.org/abs/2311.15878v3
Date: Sun, 22 Sep 2024 05:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 09:38:57.949727
Title: Policy Learning with Distributional Welfare
Title（参考訳）: 流通福祉による政策学習
Authors: Yifan Cui, Sukjin Han,
Abstract要約: 治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
参考スコア（独自算出の注目度）: 1.0742675209112622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explore optimal treatment allocation policies that target distributional welfare. Most literature on treatment choice has considered utilitarian welfare based on the conditional average treatment effect (ATE). While average welfare is intuitive, it may yield undesirable allocations especially when individuals are heterogeneous (e.g., with outliers) - the very reason individualized treatments were introduced in the first place. This observation motivates us to propose an optimal policy that allocates the treatment based on the conditional quantile of individual treatment effects (QoTE). Depending on the choice of the quantile probability, this criterion can accommodate a policymaker who is either prudent or negligent. The challenge of identifying the QoTE lies in its requirement for knowledge of the joint distribution of the counterfactual outcomes, which is generally hard to recover even with experimental data. Therefore, we introduce minimax policies that are robust to model uncertainty. A range of identifying assumptions can be used to yield more informative policies. For both stochastic and deterministic policies, we establish the asymptotic bound on the regret of implementing the proposed policies. In simulations and two empirical applications, we compare optimal decisions based on the QoTE with decisions based on other criteria. The framework can be generalized to any setting where welfare is defined as a functional of the joint distribution of the potential outcomes.
Abstract（参考訳）: 本稿では,分配福祉を対象とする最適治療配分政策について検討する。治療選択に関する文献の多くは、条件付き平均治療効果(ATE)に基づく実用的福祉を考察している。平均的な福祉は直感的であるが、特に個人が異質な(例えば、外れ値を持つ)場合、望ましくない割り当てをもたらす可能性がある。本研究の動機は,個別処理効果の条件量子化(QoTE)に基づいて治療を割り当てる最適政策を提案することである。量的確率の選択によっては、この基準は慎重または無神経な政策立案者に対応することができる。 QoTEを特定することの課題は、実験データにおいても回復が困難である対実的な結果の共分散に関する知識の要求にある。したがって、不確実性をモデル化する上で堅牢なミニマックスポリシーを導入する。仮定を特定できる範囲は、より情報的なポリシーを生み出すのに利用できる。確率的・決定論的両政策については,提案された政策の実施を後悔することによる漸近的境界を確立する。シミュレーションと2つの経験的応用において、QoTEに基づく最適決定と他の基準に基づく決定を比較した。この枠組みは、福祉が潜在的な成果の共役分布の関数として定義されるあらゆる状況に一般化することができる。

関連論文リスト

Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-07-01T20:44:48Z)
Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究は, 陽性の潜在的な違反を含む最適治療規則の因果同定とロバストな評価について検討した。一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。本研究は, SNAP給付のリマインダーデータ, 保険申請の無作為化促進, および電子監視による事前管理リリースに基づく3つのケーススタディである。
論文参考訳（メタデータ） (2023-09-12T20:45:30Z)
Inference for relative sparsity [0.0]
医学応用においては,不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論が重要である。相対的な空間的目的は不安定で二項作用の場合において無限に推定される不注意な値関数に依存するため、推論は困難である。これらの課題に対処するため、相対的疎度目標内に重み付けされた信頼地域政策最適化機能を組み込み、適応的相対的疎度ペナルティを実装し、選択後推論のためのサンプル分割フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-25T17:14:45Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-19T14:29:25Z)
Policy Learning with Asymmetric Counterfactual Utilities [0.6138671548064356]
非対称対実効関数を用いた最適政策学習について検討する。最大電力損失を最小にすることで、最小限の決定ルールを導出する。中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることが示される。
論文参考訳（メタデータ） (2022-06-21T15:44:49Z)
Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文参考訳（メタデータ） (2022-06-09T10:39:33Z)
Robust and Agnostic Learning of Conditional Distributional Treatment Effects [62.44901952244514]
条件平均治療効果(CATE)は、個々の因果効果の最適点予測である。集約分析では、通常は分布処理効果(DTE)の測定によって対処される。我々は,多種多様な問題に対して条件付きDTE(CDTE)を学習するための,新しい堅牢でモデルに依存しない手法を提供する。
論文参考訳（メタデータ） (2022-05-23T17:40:31Z)
Identification of Subgroups With Similar Benefits in Off-Policy Policy Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文参考訳（メタデータ） (2021-11-28T23:19:12Z)
On Modeling Human Perceptions of Allocation Policies with Uncertain Outcomes [6.729250803621849]
確率重み付けは、害と利益の確率分布よりも好みを予測できることを示す。確率重み付けの歪み効果を考慮して、知覚された総害を最小化し、知覚された総益を最大化する最適政策を同定する。
論文参考訳（メタデータ） (2021-03-10T02:22:08Z)
Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。 BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文参考訳（メタデータ） (2020-12-12T23:09:21Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文参考訳（メタデータ） (2020-06-06T15:52:05Z)
Treatment recommendation with distributional targets [0.0]
実験に基づいて最善を尽くさなければならない意思決定者の課題を考察する。治療勧告から得られる結果分布の所望性を機能分布特性を用いて測定する。我々は2つの(近く)最適後悔政策を提案する。
論文参考訳（メタデータ） (2020-05-19T19:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。