論文の概要: Optimal and Fair Encouragement Policy Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2309.07176v3
- Date: Mon, 18 Nov 2024 03:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:01.036273
- Title: Optimal and Fair Encouragement Policy Evaluation and Learning
- Title(参考訳): 最適かつ公正な環境政策評価と学習
- Authors: Angela Zhou,
- Abstract要約: 本研究は, 陽性の潜在的な違反を含む最適治療規則の因果同定とロバストな評価について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は, SNAP給付のリマインダーデータ, 保険申請の無作為化促進, および電子監視による事前管理リリースに基づく3つのケーススタディである。
- 参考スコア(独自算出の注目度): 11.712023983596914
- License:
- Abstract: In consequential domains, it is often impossible to compel individuals to take treatment, so that optimal policy rules are merely suggestions in the presence of human non-adherence to treatment recommendations. Under heterogeneity, covariates may predict take-up of treatment and final outcome, but differently. While optimal treatment rules optimize causal outcomes across the population, access parity constraints or other fairness considerations on who receives treatment can be important. For example, in social services, a persistent puzzle is the gap in take-up of beneficial services among those who may benefit from them the most. We study causal identification and robust estimation of optimal treatment rules, including under potential violations of positivity. We consider fairness constraints such as demographic parity in treatment take-up, and other constraints, via constrained optimization. Our framework can be extended to handle algorithmic recommendations under an often-reasonable covariate-conditional exclusion restriction, using our robustness checks for lack of positivity in the recommendation. We develop a two-stage algorithm for solving over parametrized policy classes under general constraints to obtain variance-sensitive regret bounds. We illustrate the methods in three case studies based on data from reminders of SNAP benefits recertification, randomized encouragement to enroll in insurance, and from pretrial supervised release with electronic monitoring. While the specific remedy to inequities in algorithmic allocation is context-specific, it requires studying both take-up of decisions and downstream outcomes of them.
- Abstract(参考訳): 連続的な領域では、個人に治療を強制することはしばしば不可能であり、最適な政策ルールは、治療勧告に対するヒトの非順守の存在において単に提案である。
不均一性の下では、共変種は治療のテイクアップと最終結果を予測するが、異なる。
最適な治療規則は、人口全体にわたる因果関係の結果を最適化するが、どの治療を受けるかに関するアクセスパリティ制約や他の公平性考慮は重要である。
例えば、ソーシャルサービスにおいて、永続的なパズルは、最も恩恵を受ける可能性のある人々の間で、有益なサービスの獲得のギャップである。
本研究は, 陽性の潜在的な違反を含む最適治療規則の因果同定とロバストな評価について検討した。
我々は、治療のテイクアップにおける人口統計学的同等性などの公正性制約や、その他の制約を、制約付き最適化によって検討する。
我々のフレームワークは、しばしば共変量-条件付き排除制限の下でアルゴリズムレコメンデーションを扱うように拡張することができ、推奨の正当性の欠如に対するロバスト性チェックを使用します。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は, SNAPのリマインダーデータに基づく3つのケーススタディにおいて, 保険申請の無作為化, 電子監視による事前管理リリースの3つのケーススタディについて述べる。
アルゴリズムのアロケーションにおける不等式に対する具体的な治療法は、文脈固有のものであるが、決定の取り込みとそれらの下流結果の両方を研究する必要がある。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Privacy Preserving Adaptive Experiment Design [13.839525385976303]
社会的福祉の喪失と統計的権力とのトレードオフを文脈的盗賊実験で検討する。
プライバシが"ほぼ無償"であることを示す,下位境界にマッチする差分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T09:22:12Z) - Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Inference for relative sparsity [0.0]
医学応用においては,不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論が重要である。
相対的な空間的目的は不安定で二項作用の場合において無限に推定される不注意な値関数に依存するため、推論は困難である。
これらの課題に対処するため、相対的疎度目標内に重み付けされた信頼地域政策最適化機能を組み込み、適応的相対的疎度ペナルティを実装し、選択後推論のためのサンプル分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-25T17:14:45Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Policy Learning with Asymmetric Counterfactual Utilities [0.6138671548064356]
非対称対実効関数を用いた最適政策学習について検討する。
最大電力損失を最小にすることで、最小限の決定ルールを導出する。
中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることが示される。
論文 参考訳(メタデータ) (2022-06-21T15:44:49Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Treatment recommendation with distributional targets [0.0]
実験に基づいて最善を尽くさなければならない意思決定者の課題を考察する。
治療勧告から得られる結果分布の所望性を機能分布特性を用いて測定する。
我々は2つの(近く)最適後悔政策を提案する。
論文 参考訳(メタデータ) (2020-05-19T19:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。