論文の概要: Provably Good Batch Reinforcement Learning Without Great Exploration
- arxiv url: http://arxiv.org/abs/2007.08202v2
- Date: Wed, 22 Jul 2020 08:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 21:47:26.483592
- Title: Provably Good Batch Reinforcement Learning Without Great Exploration
- Title(参考訳): 大きな探索を伴わない優れたバッチ強化学習
- Authors: Yao Liu, Adith Swaminathan, Alekh Agarwal, Emma Brunskill
- Abstract要約: バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
- 参考スコア(独自算出の注目度): 51.51462608429621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch reinforcement learning (RL) is important to apply RL algorithms to many
high stakes tasks. Doing batch RL in a way that yields a reliable new policy in
large domains is challenging: a new decision policy may visit states and
actions outside the support of the batch data, and function approximation and
optimization with limited samples can further increase the potential of
learning policies with overly optimistic estimates of their future performance.
Recent algorithms have shown promise but can still be overly optimistic in
their expected outcomes. Theoretical work that provides strong guarantees on
the performance of the output policy relies on a strong concentrability
assumption, that makes it unsuitable for cases where the ratio between
state-action distributions of behavior policy and some candidate policies is
large. This is because in the traditional analysis, the error bound scales up
with this ratio. We show that a small modification to Bellman optimality and
evaluation back-up to take a more conservative update can have much stronger
guarantees. In certain settings, they can find the approximately best policy
within the state-action space explored by the batch data, without requiring a
priori assumptions of concentrability. We highlight the necessity of our
conservative update and the limitations of previous algorithms and analyses by
illustrative MDP examples, and demonstrate an empirical comparison of our
algorithm and other state-of-the-art batch RL baselines in standard benchmarks.
- Abstract(参考訳): バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
新しい決定ポリシーは、バッチデータのサポートの外にある状態やアクションを訪問する可能性があり、限られたサンプルによる関数近似と最適化は、将来のパフォーマンスを過度に楽観的に見積もった学習ポリシーの可能性をさらに高めることができる。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
アウトプット政策のパフォーマンスを確固たる保証を提供する理論的作業は、強い集中可能性の仮定に依存しているため、行動政策の状態行動分布といくつかの候補政策の比率が大きければ不適当である。
これは、従来の分析では、エラーバウンドがこの比率でスケールするからである。
ベルマン最適性の小さな変更と、より保守的なアップデートを行うための評価バックアップは、より強力な保証を持つことができる。
特定の設定では、バッチデータによって探索される状態-作用空間の中で、集中性の前提条件を必要とせずに、ほぼ最高のポリシーを見つけることができる。
我々は,我々の保守的更新の必要性と,実証的なMPP例による過去のアルゴリズムと分析の限界を強調し,標準ベンチマークにおける我々のアルゴリズムと他の最先端バッチRLベースラインの実証的な比較を示す。
関連論文リスト
- Beyond Expected Return: Accounting for Policy Reproducibility when
Evaluating Reinforcement Learning Algorithms [9.649114720478872]
強化学習(Reinforcement Learning, RL)における多くの応用は、環境にノイズオリティが存在する。
これらの不確実性は、ひとつのロールアウトから別のロールアウトまで、まったく同じポリシーを別々に実行します。
RL の一般的な評価手順は、その分布の拡散を考慮しない期待された戻り値のみを用いて、連続した戻り値分布を要約する。
我々の研究は、この拡散をポリシーとして定義している: 何度もロールアウトするときに同様のパフォーマンスを得るポリシーの能力は、いくつかの現実世界のアプリケーションにおいて重要な特性である。
論文 参考訳(メタデータ) (2023-12-12T11:22:31Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。