論文の概要: Policy Learning with Abstention
- arxiv url: http://arxiv.org/abs/2510.19672v1
- Date: Wed, 22 Oct 2025 15:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.020877
- Title: Policy Learning with Abstention
- Title(参考訳): 無視による政策学習
- Authors: Ayush Sawarni, Jikai Jin, Justin Whitehouse, Vasilis Syrgkanis,
- Abstract要約: 我々は、政策学習を棄権で研究し、政策が安全なデフォルトまたは専門家に延期される可能性がある。
ポリシーが停止すると、ランダムな推測の値の上に小さな付加的な報酬が与えられる。
政策学習における他の中核的問題への直接的応用において,禁忌は汎用的なツールであることを示す。
- 参考スコア(独自算出の注目度): 24.276267672386982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy learning algorithms are widely used in areas such as personalized medicine and advertising to develop individualized treatment regimes. However, most methods force a decision even when predictions are uncertain, which is risky in high-stakes settings. We study policy learning with abstention, where a policy may defer to a safe default or an expert. When a policy abstains, it receives a small additive reward on top of the value of a random guess. We propose a two-stage learner that first identifies a set of near-optimal policies and then constructs an abstention rule from their disagreements. We establish fast O(1/n)-type regret guarantees when propensities are known, and extend these guarantees to the unknown-propensity case via a doubly robust (DR) objective. We further show that abstention is a versatile tool with direct applications to other core problems in policy learning: it yields improved guarantees under margin conditions without the common realizability assumption, connects to distributionally robust policy learning by hedging against small data shifts, and supports safe policy improvement by ensuring improvement over a baseline policy with high probability.
- Abstract(参考訳): 政策学習アルゴリズムは、個別化された治療体制を開発するために、パーソナライズされた医療や広告などの分野で広く利用されている。
しかし、ほとんどの手法は、予測が不確実な場合でも判断を強制するが、これは高リスク環境では危険である。
我々は、政策学習を棄権で研究し、政策が安全なデフォルトまたは専門家に延期される可能性がある。
ポリシーが停止すると、ランダムな推測の値の上に小さな付加的な報酬が与えられる。
提案する2段階学習者は,まず一組の準最適ポリシーを識別し,その相違点から棄却規則を構築する。
我々は、不確かさが分かっている場合の高速なO(1/n)型後悔保証を確立し、これらの保証を二重頑健(DR)目的により未知の正当性ケースに拡張する。
さらに,保護は政策学習における他の中核問題への直接的な適用のための汎用的なツールであり,共通実現可能性の仮定を伴わずに限界条件下での保証を向上し,小さなデータシフトに対抗して分散的に堅牢な政策学習に接続し,高い確率で基本方針の改善を保証することで安全な政策改善を支援する。
関連論文リスト
- SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement [33.60500554561509]
効果的なデジタル介入を設計するために、実験者はオフラインデータを用いて複数の目的をバランスさせる決定ポリシーを学ぶという課題に直面している。
信頼できるレコメンデーションを提供するためには、実験者は目標とガードレールの結果の望ましい変化を満たすポリシーを識別するだけでなく、これらのポリシーが引き起こす変化に関する確率的保証を提供する必要がある。
本稿では,これらの課題に対処するために,アルゴリズム安定性の概念を活用する新しいアプローチであるSNPL(Safe Noisy Policy Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T02:53:53Z) - CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。
既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。
本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文 参考訳(メタデータ) (2024-08-21T21:38:03Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment [0.4999814847776098]
米国刑事司法制度におけるアルゴリズムによる事前審理リスク評価の特定の事例について検討する。
我々は,アルゴリズムによる事前審理前リスク評価のフィールド実験からデータを分析し,スコアとレコメンデーションを改善することができるかどうかを検証した。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。