論文の概要: Online Estimation and Inference for Robust Policy Evaluation in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.02581v1
- Date: Wed, 4 Oct 2023 04:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:20:09.687061
- Title: Online Estimation and Inference for Robust Policy Evaluation in
Reinforcement Learning
- Title(参考訳): 強化学習におけるロバスト政策評価のためのオンライン推定と推論
- Authors: Weidong Liu, Jiyuan Tu, Yichen Zhang, Xi Chen
- Abstract要約: 本研究では,バハドゥル表現に基づくオンラインロバストな政策評価手法を開発し,推定器の限定分布を確立する。
本稿では、強化学習における頑健な統計と統計的推測のギャップを埋め、より汎用的で信頼性の高い政策評価手法を提供する。
- 参考スコア(独自算出の注目度): 7.875680651592574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, reinforcement learning has gained prominence in modern statistics,
with policy evaluation being a key component. Unlike traditional machine
learning literature on this topic, our work places emphasis on statistical
inference for the parameter estimates computed using reinforcement learning
algorithms. While most existing analyses assume random rewards to follow
standard distributions, limiting their applicability, we embrace the concept of
robust statistics in reinforcement learning by simultaneously addressing issues
of outlier contamination and heavy-tailed rewards within a unified framework.
In this paper, we develop an online robust policy evaluation procedure, and
establish the limiting distribution of our estimator, based on its Bahadur
representation. Furthermore, we develop a fully-online procedure to efficiently
conduct statistical inference based on the asymptotic distribution. This paper
bridges the gap between robust statistics and statistical inference in
reinforcement learning, offering a more versatile and reliable approach to
policy evaluation. Finally, we validate the efficacy of our algorithm through
numerical experiments conducted in real-world reinforcement learning
experiments.
- Abstract(参考訳): 近年,現代統計学において強化学習が注目され,政策評価が重要な要素となっている。
本研究は,従来の機械学習文献とは異なり,強化学習アルゴリズムを用いて計算したパラメータ推定の統計的推論に重点を置いている。
既存の分析ではランダム報酬が標準分布に従うと仮定しており、適用性が制限されているが、我々は統一されたフレームワークの中で、異常汚染と重み付き報酬の問題を同時に取り扱うことで強化学習における堅牢な統計学の概念を取り入れている。
本稿では,オンラインのロバストな政策評価手法を開発し,そのバハドゥル表現に基づく推定値の限定分布を確立する。
さらに,漸近分布に基づく統計的推論を効率的に行うための完全オンライン手法を開発した。
本稿では,強化学習におけるロバスト統計と統計的推論のギャップを橋渡しし,より汎用的で信頼性の高い政策評価手法を提案する。
最後に,実世界の強化学習実験で行った数値実験により,本アルゴリズムの有効性を検証する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Towards Theoretical Understanding of Data-Driven Policy Refinement [0.0]
本稿では、特に安全クリティカルなアプリケーションのために設計された強化学習におけるデータ駆動型ポリシー改善のアプローチを提案する。
我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。
我々は、収束性、ロバスト性境界、一般化誤差、モデルミスマッチに対するレジリエンスなど、我々のアプローチの重要な理論的性質を解明する一連の定理を提示する。
論文 参考訳(メタデータ) (2023-05-11T13:36:21Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Online Bootstrap Inference For Policy Evaluation in Reinforcement
Learning [90.59143158534849]
近年の強化学習の出現は、頑健な統計的推論手法の需要を生み出している。
オンライン学習における統計的推論の既存の方法は、独立してサンプリングされた観察を含む設定に限られる。
オンラインブートストラップは線形近似アルゴリズムにおける統計的推測のための柔軟で効率的な手法であるが、マルコフノイズを含む設定における有効性はまだ検討されていない。
論文 参考訳(メタデータ) (2021-08-08T18:26:35Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Targeting Learning: Robust Statistics for Reproducible Research [1.1455937444848387]
ターゲティング・ラーニング(Targeted Learning)は、因果推論、機械学習、統計理論の進歩を統一して、科学的に影響のある質問に統計的信頼性で答えるのに役立つ統計分野である。
ターゲット学習のロードマップは、仮説を最小化し、利用可能な科学的知識にのみ注意深く根ざすように、統計的手続きを調整することを強調する。
論文 参考訳(メタデータ) (2020-06-12T17:17:01Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。