論文の概要: Decision-Point Guided Safe Policy Improvement
- arxiv url: http://arxiv.org/abs/2410.09361v1
- Date: Sat, 12 Oct 2024 04:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:53:51.653195
- Title: Decision-Point Guided Safe Policy Improvement
- Title(参考訳): 意思決定ポイントガイドによる安全政策の改善
- Authors: Abhishek Sharma, Leo Benac, Sonali Parbhoo, Finale Doshi-Velez,
- Abstract要約: 決定点RL(Decision Points RL、DPRL)は、改善のために考慮される状態-作用対(または連続状態の領域)のセットを制限するアルゴリズムである。
DPRLは、密接な訪問国からのデータを活用しながら、密接な訪問国における高信頼の向上を保証する。
- 参考スコア(独自算出の注目度): 22.885394395400592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within batch reinforcement learning, safe policy improvement (SPI) seeks to ensure that the learnt policy performs at least as well as the behavior policy that generated the dataset. The core challenge in SPI is seeking improvements while balancing risk when many state-action pairs may be infrequently visited. In this work, we introduce Decision Points RL (DPRL), an algorithm that restricts the set of state-action pairs (or regions for continuous states) considered for improvement. DPRL ensures high-confidence improvement in densely visited states (i.e. decision points) while still utilizing data from sparsely visited states. By appropriately limiting where and how we may deviate from the behavior policy, we achieve tighter bounds than prior work; specifically, our data-dependent bounds do not scale with the size of the state and action spaces. In addition to the analysis, we demonstrate that DPRL is both safe and performant on synthetic and real datasets.
- Abstract(参考訳): バッチ強化学習において、安全なポリシー改善(SPI)は、学習したポリシーがデータセットを生成する行動ポリシーと同様に、少なくとも実行することを保証する。
SPIの中核的な課題は、多くのステートアクションペアが頻繁に訪れる場合のリスクのバランスを保ちながら改善を求めることである。
本研究では,改良を目的とした状態-作用対(あるいは連続状態の領域)のセットを制限するアルゴリズムである決定点RL(DPRL)を紹介する。
DPRLは、密接な訪問状態(すなわち、決定点)において、少ない訪問状態のデータを引き続き活用しながら、高い信頼度の向上を保証する。
動作ポリシーから逸脱する場所と方法を適切に制限することにより、以前の作業よりも厳密なバウンダリを実現します。
この分析に加えて、DPRLは、合成データセットと実データセットの両方において安全かつ高性能であることを示す。
関連論文リスト
- Policy Regularization with Dataset Constraint for Offline Reinforcement
Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。
本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。
PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文 参考訳(メタデータ) (2023-06-11T03:02:10Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Safe Policy Improvement for POMDPs via Finite-State Controllers [6.022036788651133]
部分的に観測可能なマルコフ決定プロセス(POMDP)のための安全政策改善(SPI)について検討する。
SPIメソッドは、モデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
論文 参考訳(メタデータ) (2023-01-12T11:22:54Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。