論文の概要: Optimal and Fair Encouragement Policy Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2309.07176v1
- Date: Tue, 12 Sep 2023 20:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 17:28:33.547681
- Title: Optimal and Fair Encouragement Policy Evaluation and Learning
- Title(参考訳): 最適かつ公平な奨励政策の評価と学習
- Authors: Angela Zhou
- Abstract要約: 本研究では, 因果同定, 統計的分散推定, および最適処理規則のロバスト推定について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
- 参考スコア(独自算出の注目度): 11.712023983596914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In consequential domains, it is often impossible to compel individuals to
take treatment, so that optimal policy rules are merely suggestions in the
presence of human non-adherence to treatment recommendations. In these same
domains, there may be heterogeneity both in who responds in taking-up
treatment, and heterogeneity in treatment efficacy. While optimal treatment
rules can maximize causal outcomes across the population, access parity
constraints or other fairness considerations can be relevant in the case of
encouragement. For example, in social services, a persistent puzzle is the gap
in take-up of beneficial services among those who may benefit from them the
most. When in addition the decision-maker has distributional preferences over
both access and average outcomes, the optimal decision rule changes. We study
causal identification, statistical variance-reduced estimation, and robust
estimation of optimal treatment rules, including under potential violations of
positivity. We consider fairness constraints such as demographic parity in
treatment take-up, and other constraints, via constrained optimization. Our
framework can be extended to handle algorithmic recommendations under an
often-reasonable covariate-conditional exclusion restriction, using our
robustness checks for lack of positivity in the recommendation. We develop a
two-stage algorithm for solving over parametrized policy classes under general
constraints to obtain variance-sensitive regret bounds. We illustrate the
methods in two case studies based on data from randomized encouragement to
enroll in insurance and from pretrial supervised release with electronic
monitoring.
- Abstract(参考訳): 連続的な領域では、個人に治療を強制することはしばしば不可能であり、最適な政策ルールは、治療勧告に対するヒトの非順守の存在において単に提案である。
これらの同じ領域では、治療を受ける際に反応する人と治療効果の多様性の両方に異質性がある可能性がある。
最適な治療規則は、人口全体の因果関係を最大化することができるが、アクセスパリティ制約やその他の公平性考慮は、奨励の場合に関係がある。
例えば、ソーシャルサービスでは、永続的なパズルは、最も利益を享受できる人々の間で、有益なサービスを取り上げる際のギャップです。
さらに、意思決定者がアクセスと平均結果の両方に対して分布的選好を持つ場合、最適な決定ルールが変化する。
本研究は, 正の潜在的な違反を含む最適処理規則の因果同定, 統計的分散推定, およびロバスト推定について検討した。
本研究は, 治療における人口統計学的パリティなどの公平性制約や, その他の制約について, 制約付き最適化によって検討する。
提案手法は,提案手法における肯定性欠如のロバスト性チェックを用いて,共変量条件排他的制約下でアルゴリズム的推奨を扱うように拡張することができる。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は,無作為化促進から保険加入までのデータと,電子モニタリングによる事前監督リリースの2つのケーススタディである。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Privacy Preserving Adaptive Experiment Design [13.839525385976303]
社会的福祉の喪失と統計的権力とのトレードオフを文脈的盗賊実験で検討する。
プライバシが"ほぼ無償"であることを示す,下位境界にマッチする差分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T09:22:12Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Stage-Aware Learning for Dynamic Treatments [3.6923632650826486]
動的治療体制のための新しい個別化学習法を提案する。
観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法はIPWE法における試料効率と安定性を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T06:35:31Z) - Inference for relative sparsity [0.0]
医学応用においては,不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論が重要である。
相対的な空間的目的は不安定で二項作用の場合において無限に推定される不注意な値関数に依存するため、推論は困難である。
これらの課題に対処するため、相対的疎度目標内に重み付けされた信頼地域政策最適化機能を組み込み、適応的相対的疎度ペナルティを実装し、選択後推論のためのサンプル分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-25T17:14:45Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Treatment recommendation with distributional targets [0.0]
実験に基づいて最善を尽くさなければならない意思決定者の課題を考察する。
治療勧告から得られる結果分布の所望性を機能分布特性を用いて測定する。
我々は2つの(近く)最適後悔政策を提案する。
論文 参考訳(メタデータ) (2020-05-19T19:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。