Fugu-MT 論文翻訳(概要): Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation

論文の概要: Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation

arxiv url: http://arxiv.org/abs/2006.13189v2
Date: Fri, 30 Oct 2020 19:14:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 21:33:56.862046
Title: Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation
Title（参考訳）: オフライン政策学習と評価のためのエキスパート監督強化学習
Authors: Aaron Sonabend-W, Junwei Lu, Leo A. Celi, Tianxi Cai, Peter Szolovits
Abstract要約: 本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
参考スコア（独自算出の注目度）: 21.703965401500913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline Reinforcement Learning (RL) is a promising approach for learning optimal policies in environments where direct exploration is expensive or unfeasible. However, the adoption of such policies in practice is often challenging, as they are hard to interpret within the application context, and lack measures of uncertainty for the learned policy value and its decisions. To overcome these issues, we propose an Expert-Supervised RL (ESRL) framework which uses uncertainty quantification for offline policy learning. In particular, we have three contributions: 1) the method can learn safe and optimal policies through hypothesis testing, 2) ESRL allows for different levels of risk averse implementations tailored to the application context, and finally, 3) we propose a way to interpret ESRL's policy at every state through posterior distributions, and use this framework to compute off-policy value function posteriors. We provide theoretical guarantees for our estimators and regret bounds consistent with Posterior Sampling for RL (PSRL). Sample efficiency of ESRL is independent of the chosen risk aversion threshold and quality of the behavior policy.
Abstract（参考訳）: オフライン強化学習(rl)は、直接探索が高価で不可能である環境で最適なポリシーを学ぶための有望なアプローチである。しかし、そのようなポリシーを実際に採用することは、アプリケーションコンテキスト内で解釈することが困難であり、学習したポリシーの価値とその決定に対する不確実性の尺度が欠如しているため、しばしば困難である。これらの課題を克服するために,オフライン政策学習のための不確実性定量化を利用するExpert-Supervised RL (ESRL) フレームワークを提案する。特に3つの貢献があります 1)仮説テストにより安全かつ最適な政策を学習することができる。 2)ESRLは、アプリケーションコンテキストに合わせて異なるレベルのリスク回避実装を可能にします。 3) 各状態におけるESRLのポリシーを後続分布を通して解釈する方法を提案し,この枠組みを用いて非政治値関数後端の計算を行う。 RL (Posterior Sampling for RL) と一致する推定値と後悔境界について理論的に保証する。 ESRLのサンプル効率は、選択されたリスク回避しきい値と行動ポリシーの品質とは独立である。

関連論文リスト

SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本稿では,モデルフリーのエピソード設定において,新しいタスク固有ポリシーの安全性特性に違反する確率を限定した理論的結果を示す。また,タスク固有の性能と引き換えに安全保証を交換できるSPoRtを提案する。
論文参考訳（メタデータ） (2025-04-08T19:09:07Z)
Provable Zero-Shot Generalization in Offline Reinforcement Learning [55.169228792596805]
ゼロショット一般化特性(ZSG)を用いたオフライン強化学習について検討する。既存の研究によると、古典的なオフラインRLは新しい、目に見えない環境に一般化できなかった。 PERM と PPPO はともに,ZSG による準最適政策を見出すことができることを示す。
論文参考訳（メタデータ） (2025-03-11T02:44:32Z)
Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-03T20:25:41Z)
SAD: State-Action Distillation for In-Context Reinforcement Learning under Random Policies [2.52299400625445]
State-Action Distillation (SAD) は、ランダムなポリシーのみによってガイドされる顕著な事前学習データセットを生成する。 SADはオフライン評価では180.86%、オンライン評価では172.8%で最高のベースラインを上回っている。
論文参考訳（メタデータ） (2024-10-25T21:46:25Z)
Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。 2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2024-08-31T11:13:33Z)
Uncertainty-aware Distributional Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文参考訳（メタデータ） (2024-03-26T12:28:04Z)
Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文参考訳（メタデータ） (2023-07-25T21:38:08Z)
Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。 RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文参考訳（メタデータ） (2023-07-25T01:14:56Z)
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文参考訳（メタデータ） (2022-04-19T15:55:47Z)
Combing Policy Evaluation and Policy Improvement in a Unified f-Divergence Framework [33.90259939664709]
学習方針とサンプリング方針のf分割について検討し、f-divergence Reinforcement Learning(FRL)と呼ばれる新しいDRLフレームワークを導出する。 FRL フレームワークは,1) f-divergence によって政策評価と政策改善プロセスを同時に導出すること,2) 値関数の過大評価問題を緩和すること,の2つの利点を実現する。
論文参考訳（メタデータ） (2021-09-24T10:20:46Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文参考訳（メタデータ） (2020-02-08T01:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。