論文の概要: Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation
- arxiv url: http://arxiv.org/abs/2006.13189v2
- Date: Fri, 30 Oct 2020 19:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:33:56.862046
- Title: Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation
- Title(参考訳): オフライン政策学習と評価のためのエキスパート監督強化学習
- Authors: Aaron Sonabend-W, Junwei Lu, Leo A. Celi, Tianxi Cai, Peter Szolovits
- Abstract要約: 本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。
具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
- 参考スコア(独自算出の注目度): 21.703965401500913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) is a promising approach for learning
optimal policies in environments where direct exploration is expensive or
unfeasible. However, the adoption of such policies in practice is often
challenging, as they are hard to interpret within the application context, and
lack measures of uncertainty for the learned policy value and its decisions. To
overcome these issues, we propose an Expert-Supervised RL (ESRL) framework
which uses uncertainty quantification for offline policy learning. In
particular, we have three contributions: 1) the method can learn safe and
optimal policies through hypothesis testing, 2) ESRL allows for different
levels of risk averse implementations tailored to the application context, and
finally, 3) we propose a way to interpret ESRL's policy at every state through
posterior distributions, and use this framework to compute off-policy value
function posteriors. We provide theoretical guarantees for our estimators and
regret bounds consistent with Posterior Sampling for RL (PSRL). Sample
efficiency of ESRL is independent of the chosen risk aversion threshold and
quality of the behavior policy.
- Abstract(参考訳): オフライン強化学習(rl)は、直接探索が高価で不可能である環境で最適なポリシーを学ぶための有望なアプローチである。
しかし、そのようなポリシーを実際に採用することは、アプリケーションコンテキスト内で解釈することが困難であり、学習したポリシーの価値とその決定に対する不確実性の尺度が欠如しているため、しばしば困難である。
これらの課題を克服するために,オフライン政策学習のための不確実性定量化を利用するExpert-Supervised RL (ESRL) フレームワークを提案する。
特に3つの貢献があります
1)仮説テストにより安全かつ最適な政策を学習することができる。
2)ESRLは、アプリケーションコンテキストに合わせて異なるレベルのリスク回避実装を可能にします。
3) 各状態におけるESRLのポリシーを後続分布を通して解釈する方法を提案し,この枠組みを用いて非政治値関数後端の計算を行う。
RL (Posterior Sampling for RL) と一致する推定値と後悔境界について理論的に保証する。
ESRLのサンプル効率は、選択されたリスク回避しきい値と行動ポリシーの品質とは独立である。
関連論文リスト
- Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Risk-Sensitive Policy with Distributional Reinforcement Learning [4.523089386111081]
本研究は、リスクに敏感なシーケンシャルな意思決定ポリシーを導出する、分布RLに基づく新しい手法を提案する。
リスクベースのユーティリティ関数$U$と名付けられ、任意の分布RLアルゴリズムによって自然に学習されたランダムリターン分布$Z$から抽出することができる。
これにより、リスク最小化と期待されるリターン最大化の間の完全な潜在的なトレードオフをまたがることができる。
論文 参考訳(メタデータ) (2022-12-30T14:37:28Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Combing Policy Evaluation and Policy Improvement in a Unified
f-Divergence Framework [33.90259939664709]
学習方針とサンプリング方針のf分割について検討し、f-divergence Reinforcement Learning(FRL)と呼ばれる新しいDRLフレームワークを導出する。
FRL フレームワークは,1) f-divergence によって政策評価と政策改善プロセスを同時に導出すること,2) 値関数の過大評価問題を緩和すること,の2つの利点を実現する。
論文 参考訳(メタデータ) (2021-09-24T10:20:46Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。