論文の概要: Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation
- arxiv url: http://arxiv.org/abs/2006.13189v2
- Date: Fri, 30 Oct 2020 19:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:33:56.862046
- Title: Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation
- Title(参考訳): オフライン政策学習と評価のためのエキスパート監督強化学習
- Authors: Aaron Sonabend-W, Junwei Lu, Leo A. Celi, Tianxi Cai, Peter Szolovits
- Abstract要約: 本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。
具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
- 参考スコア(独自算出の注目度): 21.703965401500913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) is a promising approach for learning
optimal policies in environments where direct exploration is expensive or
unfeasible. However, the adoption of such policies in practice is often
challenging, as they are hard to interpret within the application context, and
lack measures of uncertainty for the learned policy value and its decisions. To
overcome these issues, we propose an Expert-Supervised RL (ESRL) framework
which uses uncertainty quantification for offline policy learning. In
particular, we have three contributions: 1) the method can learn safe and
optimal policies through hypothesis testing, 2) ESRL allows for different
levels of risk averse implementations tailored to the application context, and
finally, 3) we propose a way to interpret ESRL's policy at every state through
posterior distributions, and use this framework to compute off-policy value
function posteriors. We provide theoretical guarantees for our estimators and
regret bounds consistent with Posterior Sampling for RL (PSRL). Sample
efficiency of ESRL is independent of the chosen risk aversion threshold and
quality of the behavior policy.
- Abstract(参考訳): オフライン強化学習(rl)は、直接探索が高価で不可能である環境で最適なポリシーを学ぶための有望なアプローチである。
しかし、そのようなポリシーを実際に採用することは、アプリケーションコンテキスト内で解釈することが困難であり、学習したポリシーの価値とその決定に対する不確実性の尺度が欠如しているため、しばしば困難である。
これらの課題を克服するために,オフライン政策学習のための不確実性定量化を利用するExpert-Supervised RL (ESRL) フレームワークを提案する。
特に3つの貢献があります
1)仮説テストにより安全かつ最適な政策を学習することができる。
2)ESRLは、アプリケーションコンテキストに合わせて異なるレベルのリスク回避実装を可能にします。
3) 各状態におけるESRLのポリシーを後続分布を通して解釈する方法を提案し,この枠組みを用いて非政治値関数後端の計算を行う。
RL (Posterior Sampling for RL) と一致する推定値と後悔境界について理論的に保証する。
ESRLのサンプル効率は、選択されたリスク回避しきい値と行動ポリシーの品質とは独立である。
関連論文リスト
- SAD: State-Action Distillation for In-Context Reinforcement Learning under Random Policies [2.52299400625445]
State-Action Distillation (SAD) は、ランダムなポリシーのみによってガイドされる顕著な事前学習データセットを生成する。
SADはオフライン評価では180.86%、オンライン評価では172.8%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-10-25T21:46:25Z) - Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - Uncertainty-aware Distributional Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Combing Policy Evaluation and Policy Improvement in a Unified
f-Divergence Framework [33.90259939664709]
学習方針とサンプリング方針のf分割について検討し、f-divergence Reinforcement Learning(FRL)と呼ばれる新しいDRLフレームワークを導出する。
FRL フレームワークは,1) f-divergence によって政策評価と政策改善プロセスを同時に導出すること,2) 値関数の過大評価問題を緩和すること,の2つの利点を実現する。
論文 参考訳(メタデータ) (2021-09-24T10:20:46Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。