論文の概要: Optimal and Fair Encouragement Policy Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2309.07176v2
- Date: Sat, 25 Nov 2023 02:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:48:19.923432
- Title: Optimal and Fair Encouragement Policy Evaluation and Learning
- Title(参考訳): 最適かつ公平な奨励政策の評価と学習
- Authors: Angela Zhou
- Abstract要約: 本研究では, 因果同定, 統計的分散推定, および最適処理規則のロバスト推定について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
- 参考スコア(独自算出の注目度): 11.712023983596914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In consequential domains, it is often impossible to compel individuals to
take treatment, so that optimal policy rules are merely suggestions in the
presence of human non-adherence to treatment recommendations. In these same
domains, there may be heterogeneity both in who responds in taking-up
treatment, and heterogeneity in treatment efficacy. While optimal treatment
rules can maximize causal outcomes across the population, access parity
constraints or other fairness considerations can be relevant in the case of
encouragement. For example, in social services, a persistent puzzle is the gap
in take-up of beneficial services among those who may benefit from them the
most. When in addition the decision-maker has distributional preferences over
both access and average outcomes, the optimal decision rule changes. We study
causal identification, statistical variance-reduced estimation, and robust
estimation of optimal treatment rules, including under potential violations of
positivity. We consider fairness constraints such as demographic parity in
treatment take-up, and other constraints, via constrained optimization. Our
framework can be extended to handle algorithmic recommendations under an
often-reasonable covariate-conditional exclusion restriction, using our
robustness checks for lack of positivity in the recommendation. We develop a
two-stage algorithm for solving over parametrized policy classes under general
constraints to obtain variance-sensitive regret bounds. We illustrate the
methods in two case studies based on data from randomized encouragement to
enroll in insurance and from pretrial supervised release with electronic
monitoring.
- Abstract(参考訳): 連続的な領域では、個人に治療を強制することはしばしば不可能であり、最適な政策ルールは、治療勧告に対するヒトの非順守の存在において単に提案である。
これらの同じ領域では、治療を受ける際に反応する人と治療効果の多様性の両方に異質性がある可能性がある。
最適な治療規則は、人口全体の因果関係を最大化することができるが、アクセスパリティ制約やその他の公平性考慮は、奨励の場合に関係がある。
例えば、ソーシャルサービスでは、永続的なパズルは、最も利益を享受できる人々の間で、有益なサービスを取り上げる際のギャップです。
さらに、意思決定者がアクセスと平均結果の両方に対して分布的選好を持つ場合、最適な決定ルールが変化する。
本研究は, 正の潜在的な違反を含む最適処理規則の因果同定, 統計的分散推定, およびロバスト推定について検討した。
本研究は, 治療における人口統計学的パリティなどの公平性制約や, その他の制約について, 制約付き最適化によって検討する。
提案手法は,提案手法における肯定性欠如のロバスト性チェックを用いて,共変量条件排他的制約下でアルゴリズム的推奨を扱うように拡張することができる。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は,無作為化促進から保険加入までのデータと,電子モニタリングによる事前監督リリースの2つのケーススタディである。
関連論文リスト
- Privacy Preserving Adaptive Experiment Design [13.839525385976303]
社会的福祉の喪失と統計的権力とのトレードオフを文脈的盗賊実験で検討する。
プライバシが"ほぼ無償"であることを示す,下位境界にマッチする差分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T09:22:12Z) - Policy Learning with Distributional Welfare [1.2691047660244337]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Inference for relative sparsity [0.0]
医学応用においては,不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論が重要である。
相対的な空間的目的は不安定で二項作用の場合において無限に推定される不注意な値関数に依存するため、推論は困難である。
これらの課題に対処するため、相対的疎度目標内に重み付けされた信頼地域政策最適化機能を組み込み、適応的相対的疎度ペナルティを実装し、選択後推論のためのサンプル分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-25T17:14:45Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Policy Learning with Asymmetric Counterfactual Utilities [0.6138671548064356]
非対称対実効関数を用いた最適政策学習について検討する。
最大電力損失を最小にすることで、最小限の決定ルールを導出する。
中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることが示される。
論文 参考訳(メタデータ) (2022-06-21T15:44:49Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Treatment recommendation with distributional targets [0.0]
実験に基づいて最善を尽くさなければならない意思決定者の課題を考察する。
治療勧告から得られる結果分布の所望性を機能分布特性を用いて測定する。
我々は2つの(近く)最適後悔政策を提案する。
論文 参考訳(メタデータ) (2020-05-19T19:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。