論文の概要: Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment
- arxiv url: http://arxiv.org/abs/2109.11679v1
- Date: Wed, 22 Sep 2021 00:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 07:18:12.689182
- Title: Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment
- Title(参考訳): 補間による安全政策学習--裁判前リスクアセスメントへの応用
- Authors: Eli Ben-Michael, D. James Greiner, Kosuke Imai, Zhichao Jiang
- Abstract要約: 我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithmic recommendations and decisions have become ubiquitous in today's
society. Many of these and other data-driven policies are based on known,
deterministic rules to ensure their transparency and interpretability. This is
especially true when such policies are used for public policy decision-making.
For example, algorithmic pre-trial risk assessments, which serve as our
motivating application, provide relatively simple, deterministic classification
scores and recommendations to help judges make release decisions.
Unfortunately, existing methods for policy learning are not applicable because
they require existing policies to be stochastic rather than deterministic. We
develop a robust optimization approach that partially identifies the expected
utility of a policy, and then finds an optimal policy by minimizing the
worst-case regret. The resulting policy is conservative but has a statistical
safety guarantee, allowing the policy-maker to limit the probability of
producing a worse outcome than the existing policy. We extend this approach to
common and important settings where humans make decisions with the aid of
algorithmic recommendations. Lastly, we apply the proposed methodology to a
unique field experiment on pre-trial risk assessments. We derive new
classification and recommendation rules that retain the transparency and
interpretability of the existing risk assessment instrument while potentially
leading to better overall outcomes at a lower cost.
- Abstract(参考訳): アルゴリズムによる推薦と決定は今日の社会では至るところで行われている。
これらのデータ駆動ポリシーの多くは、その透明性と解釈可能性を保証するための既知の決定論的ルールに基づいている。
このような政策が公共政策決定に使用される場合、これは特に当てはまる。
例えば、私たちのモチベーションアプリケーションとして機能するアルゴリズムによる裁判前リスクアセスメントは、比較的単純で決定論的な分類スコアと、裁判官がリリース決定を行うのに役立つ推奨を提供する。
残念ながら、既存の政策学習方法は、決定論的ではなく確率的であるために適用できない。
本稿では,政策の実用性を部分的に識別する頑健な最適化手法を開発し,最悪の場合の後悔を最小限に抑えて最適な政策を見出す。
結果として得られる政策は保守的であるが、統計上の安全保証があり、政策立案者は既存の政策よりも悪い結果をもたらす確率を制限することができる。
私たちはこのアプローチを、人間がアルゴリズムによる推奨によって意思決定を行う、一般的で重要な設定に拡張します。
最後に,提案手法を臨床前リスク評価に関するユニークなフィールド実験に適用する。
我々は,既存のリスクアセスメント機器の透明性と解釈性を維持しつつ,より低いコストで全体の結果を改善する新たな分類と推奨ルールを導出する。
関連論文リスト
- Bayesian Safe Policy Learning with Chance Constrained Optimization: Application to Military Security Assessment during the Vietnam War [0.0]
ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。
この経験的応用は、アルゴリズムによる意思決定においてしばしば発生するいくつかの方法論的課題を提起する。
論文 参考訳(メタデータ) (2023-07-17T20:59:50Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。