論文の概要: SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement
- arxiv url: http://arxiv.org/abs/2503.12760v2
- Date: Fri, 21 Mar 2025 17:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 11:33:52.787563
- Title: SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement
- Title(参考訳): SNPL: 安全な多目的政策改善のための同時政策学習と評価
- Authors: Brian Cho, Ana-Roxana Pop, Ariel Evnine, Nathan Kallus,
- Abstract要約: 効果的なデジタル介入を設計するために、実験者はオフラインデータを用いて複数の目的をバランスさせる決定ポリシーを学ぶという課題に直面している。
信頼できるレコメンデーションを提供するためには、実験者は目標とガードレールの結果の望ましい変化を満たすポリシーを識別するだけでなく、これらのポリシーが引き起こす変化に関する確率的保証を提供する必要がある。
本稿では,これらの課題に対処するために,アルゴリズム安定性の概念を活用する新しいアプローチであるSNPL(Safe Noisy Policy Learning)を提案する。
- 参考スコア(独自算出の注目度): 33.60500554561509
- License:
- Abstract: To design effective digital interventions, experimenters face the challenge of learning decision policies that balance multiple objectives using offline data. Often, they aim to develop policies that maximize goal outcomes, while ensuring there are no undesirable changes in guardrail outcomes. To provide credible recommendations, experimenters must not only identify policies that satisfy the desired changes in goal and guardrail outcomes, but also offer probabilistic guarantees about the changes these policies induce. In practice, however, policy classes are often large, and digital experiments tend to produce datasets with small effect sizes relative to noise. In this setting, standard approaches such as data splitting or multiple testing often result in unstable policy selection and/or insufficient statistical power. In this paper, we provide safe noisy policy learning (SNPL), a novel approach that leverages the concept of algorithmic stability to address these challenges. Our method enables policy learning while simultaneously providing high-confidence guarantees using the entire dataset, avoiding the need for data-splitting. We present finite-sample and asymptotic versions of our algorithm that ensure the recommended policy satisfies high-probability guarantees for avoiding guardrail regressions and/or achieving goal outcome improvements. We test both variants of our approach approach empirically on a real-world application of personalizing SMS delivery. Our results on real-world data suggest that our approach offers dramatic improvements in settings with large policy classes and low signal-to-noise across both finite-sample and asymptotic safety guarantees, offering up to 300\% improvements in detection rates and 150\% improvements in policy gains at significantly smaller sample sizes.
- Abstract(参考訳): 効果的なデジタル介入を設計するために、実験者はオフラインデータを用いて複数の目的をバランスさせる決定ポリシーを学ぶという課題に直面している。
多くの場合、彼らはゴールの成果を最大化するポリシーを開発し、ガードレールの結果に望ましくない変更がないことを保証することを目的としています。
信頼できるレコメンデーションを提供するためには、実験者は目標とガードレールの結果の望ましい変化を満たすポリシーを識別するだけでなく、これらのポリシーが引き起こす変化に関する確率的保証を提供する必要がある。
しかし実際には、ポリシークラスは大きいことが多く、デジタル実験はノイズに対して小さな効果の大きさのデータセットを生成する傾向がある。
この設定では、データ分割や多重テストのような標準的なアプローチは、しばしば不安定な政策選択または/または不十分な統計力をもたらす。
本稿では,これらの課題に対処するために,アルゴリズム安定性の概念を活用する新しいアプローチであるSNPL(Safe Noisy Policy Learning)を提案する。
提案手法は,データセット全体の信頼性保証を同時に提供しながら,ポリシ学習を可能にし,データ分割の必要性を回避する。
提案するアルゴリズムの有限サンプルおよび漸近バージョンは,ガードレールの回帰を回避したり,目標達成率の改善を達成したりするための高確率保証を満たす。
我々は、SMS配信をパーソナライズする現実のアプリケーションにおいて、我々のアプローチの2つのバリエーションを実証的にテストする。
実世界のデータから得られた結果から,本手法は,大規模なポリシクラスによる設定の劇的な改善と,有限サンプルおよび漸近的安全性保証の両面での低信号雑音化を実現し,最大300倍の検出率向上と150倍のポリシゲインを極めて小さなサンプルサイズで実現したことが示唆された。
関連論文リスト
- Efficient Policy Evaluation with Safety Constraint for Reinforcement Learning [16.7091722884524]
安全制約下での最適分散最小化行動ポリシーを提案する。
本手法は, 実質的分散低減と安全制約満足度を両立させる唯一の方法である。
論文 参考訳(メタデータ) (2024-10-08T03:10:55Z) - CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。
既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。
本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文 参考訳(メタデータ) (2024-08-21T21:38:03Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Uncertainty-Aware Policy Optimization: A Robust, Adaptive Trust Region
Approach [8.325359814939517]
データが乏しい時でも安定した性能を発揮できるよう、深いポリシー最適化手法を提案します。
得られたアルゴリズムである不確実性認識地域政策最適化は、学習プロセスを通じて存在する不確実性レベルに適応する堅牢なポリシー更新を生成する。
論文 参考訳(メタデータ) (2020-12-19T21:51:23Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。