Fugu-MT 論文翻訳(概要): Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs

論文の概要: Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs

arxiv url: http://arxiv.org/abs/2106.00099v1
Date: Mon, 31 May 2021 21:04:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-03 06:04:10.666049
Title: Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs
Title（参考訳）: 多目的spibb:seldonian offline policy improvement with safety constraints in finite mdps
Authors: Harsh Satija, Philip S. Thomas, Joelle Pineau, Romain Laroche
Abstract要約: オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
参考スコア（独自算出の注目度）: 71.47895794305883
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the problem of Safe Policy Improvement (SPI) under constraints in the offline Reinforcement Learning (RL) setting. We consider the scenario where: (i) we have a dataset collected under a known baseline policy, (ii) multiple reward signals are received from the environment inducing as many objectives to optimize. We present an SPI formulation for this RL setting that takes into account the preferences of the algorithm's user for handling the trade-offs for different reward signals while ensuring that the new policy performs at least as well as the baseline policy along each individual objective. We build on traditional SPI algorithms and propose a novel method based on Safe Policy Iteration with Baseline Bootstrapping (SPIBB, Laroche et al., 2019) that provides high probability guarantees on the performance of the agent in the true environment. We show the effectiveness of our method on a synthetic grid-world safety task as well as in a real-world critical care context to learn a policy for the administration of IV fluids and vasopressors to treat sepsis.
Abstract（参考訳）: オフライン強化学習(RL)における制約下での安全政策改善(SPI)の問題について検討する。 i) 既知のベースラインポリシーの下で収集されたデータセットがあり、 (ii) 環境から複数の報酬信号を受け取り、最適化する多くの目的を導き出すシナリオを考察する。本稿では,このrl設定に対するspiの定式化について,アルゴリズムのユーザが異なる報酬信号に対するトレードオフを処理した場合の選好を考慮し,新たなポリシーが少なくとも個々の目的に沿ったベースラインポリシと同様に実行されることを保証した。我々は,従来のSPIアルゴリズムを基盤として,実環境におけるエージェントの性能を高い確率で保証する,Baseline Bootstrapping (SPIBB, Laroche et al., 2019)によるSafe Policy Iterationに基づく新しい手法を提案する。本研究は,IV液および血管圧薬の敗血症治療方針を学習するために,本手法が人工グリッドワールド安全タスクおよび実世界のクリティカルケアコンテキストにおいて有効であることを示す。

関連論文リスト

EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。提案手法は, 従来手法に比べて試料効率を最大2～3倍向上させる。
論文参考訳（メタデータ） (2025-07-10T17:57:46Z)
Logarithmic Smoothing for Adaptive PAC-Bayesian Off-Policy Learning [4.48890356952206]
オフ政治学習は、ログ化された相互作用から最適なポリシーを学ぶための主要なフレームワークとなる。我々はこのフレームワークをオンラインPAC-ベイジアン理論のツールを用いて適応シナリオに拡張する。
論文参考訳（メタデータ） (2025-06-12T12:54:09Z)
SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement [33.60500554561509]
効果的なデジタル介入を設計するために、実験者はオフラインデータを用いて複数の目的をバランスさせる決定ポリシーを学ぶという課題に直面している。信頼できるレコメンデーションを提供するためには、実験者は目標とガードレールの結果の望ましい変化を満たすポリシーを識別するだけでなく、これらのポリシーが引き起こす変化に関する確率的保証を提供する必要がある。本稿では,これらの課題に対処するために,アルゴリズム安定性の概念を活用する新しいアプローチであるSNPL(Safe Noisy Policy Learning)を提案する。
論文参考訳（メタデータ） (2025-03-17T02:53:53Z)
Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文参考訳（メタデータ） (2024-12-11T22:00:07Z)
CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文参考訳（メタデータ） (2024-08-21T21:38:03Z)
Offline Goal-Conditioned Reinforcement Learning for Safety-Critical Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-04T05:20:57Z)
Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-09T13:47:05Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
More for Less: Safe Policy Improvement With Stronger Performance Guarantees [7.507789621505201]
安全な政策改善(SPI)問題は、サンプルデータが生成された行動ポリシーの性能を改善することを目的としている。本稿では,SPI問題に対する新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-05-13T16:22:21Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文参考訳（メタデータ） (2022-02-11T18:08:02Z)
MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文参考訳（メタデータ） (2021-02-23T01:30:55Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。