論文の概要: Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment
- arxiv url: http://arxiv.org/abs/2109.11679v4
- Date: Mon, 31 Mar 2025 20:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 14:13:11.605929
- Title: Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment
- Title(参考訳): 外挿による安全政策学習--プレトライアルリスクアセスメントへの応用
- Authors: Eli Ben-Michael, D. James Greiner, Kosuke Imai, Zhichao Jiang,
- Abstract要約: 米国刑事司法制度におけるアルゴリズムによる事前審理リスク評価の特定の事例について検討する。
我々は,アルゴリズムによる事前審理前リスク評価のフィールド実験からデータを分析し,スコアとレコメンデーションを改善することができるかどうかを検証した。
- 参考スコア(独自算出の注目度): 0.4999814847776098
- License:
- Abstract: Algorithmic recommendations and decisions have become ubiquitous in today's society. Many of these data-driven policies, especially in the realm of public policy, are based on known, deterministic rules to ensure their transparency and interpretability. We examine a particular case of algorithmic pre-trial risk assessments in the US criminal justice system, which provide deterministic classification scores and recommendations to help judges make release decisions. Our goal is to analyze data from a unique field experiment on an algorithmic pre-trial risk assessment to investigate whether the scores and recommendations can be improved. Unfortunately, prior methods for policy learning are not applicable because they require existing policies to be stochastic. We develop a maximin robust optimization approach that partially identifies the expected utility of a policy, and then finds a policy that maximizes the worst-case expected utility. The resulting policy has a statistical safety property, limiting the probability of producing a worse policy than the existing one, under structural assumptions about the outcomes. Our analysis of data from the field experiment shows that we can safely improve certain components of the risk assessment instrument by classifying arrestees as lower risk under a wide range of utility specifications, though the analysis is not informative about several components of the instrument.
- Abstract(参考訳): アルゴリズムによる推薦と決定は今日の社会では至るところで行われている。
これらのデータ駆動政策の多くは、特に公共政策の領域において、その透明性と解釈可能性を保証するための既知の決定論的ルールに基づいている。
米国刑事司法制度におけるアルゴリズムによる裁判前リスク評価の特定の事例について検討し、裁判官が釈放決定を下すのに役立つ決定論的分類スコアと勧告を提供する。
我々のゴールは、アルゴリズムによる事前審理リスク評価のフィールド実験からデータを分析し、スコアとレコメンデーションを改善することができるかどうかを調べることである。
残念ながら、既存のポリシーを確率的に扱う必要があるため、政策学習の事前の手法は適用できない。
提案手法は,政策の期待される効用を部分的に同定し,最悪の効用を最大化する政策を見出すための,最大ロバストな最適化手法である。
結果として得られる政策は統計的に安全であり、結果に関する構造的な仮定の下で、既存の政策よりも悪い政策を生み出す確率を制限する。
フィールド実験から得られたデータから, 逮捕者を幅広いユーティリティ仕様の下で低いリスクと分類することで, リスク評価機器の特定のコンポーネントを安全に改善できることが示唆された。
関連論文リスト
- Efficient and Sharp Off-Policy Learning under Unobserved Confounding [25.068617118126824]
本研究では,未観測のコンファウンディングを伴うシナリオにおいて,個人化された非政治学習のための新しい手法を開発する。
本手法は,未観測のコンバウンディングが問題となるような意思決定に極めて有用である。
論文 参考訳(メタデータ) (2025-02-18T16:42:24Z) - Bayesian Safe Policy Learning with Chance Constrained Optimization: Application to Military Security Assessment during the Vietnam War [0.0]
ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。
この経験的応用は、アルゴリズムによる意思決定においてしばしば発生するいくつかの方法論的課題を提起する。
論文 参考訳(メタデータ) (2023-07-17T20:59:50Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。