論文の概要: On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks
- arxiv url: http://arxiv.org/abs/2103.06671v1
- Date: Thu, 11 Mar 2021 14:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 11:43:35.931314
- Title: On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks
- Title(参考訳): 深部ReLUネットワークを用いたオフライン強化学習の有限サンプル解析
- Authors: Thanh Nguyen-Tang, Sunil Gupta, Hung Tran-The, Svetha Venkatesh
- Abstract要約: 深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。
我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
- 参考スコア(独自算出の注目度): 46.067702683141356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the statistical theory of offline reinforcement learning
with deep ReLU networks. We consider the off-policy evaluation (OPE) problem
where the goal is to estimate the expected discounted reward of a target policy
given the logged data generated by unknown behaviour policies. We study a
regression-based fitted Q evaluation (FQE) method using deep ReLU networks and
characterize a finite-sample bound on the estimation error of this method under
mild assumptions. The prior works in OPE with either general function
approximation or deep ReLU networks ignore the data-dependent structure in the
algorithm, dodging the technical bottleneck of OPE, while requiring a rather
restricted regularity assumption. In this work, we overcome these limitations
and provide a comprehensive analysis of OPE with deep ReLU networks. In
particular, we precisely quantify how the distribution shift of the offline
data, the dimension of the input space, and the regularity of the system
control the OPE estimation error. Consequently, we provide insights into the
interplay between offline reinforcement learning and deep learning.
- Abstract(参考訳): 本論文では,ReLUネットワークを用いたオフライン強化学習の統計理論について検討する。
未知の行動方針によって生成されたログデータに基づいて、ターゲットポリシーの予想される割引報酬を推定することを目標とするオフポリシ評価(OPE)問題を検討します。
深部ReLUネットワークを用いた回帰型適応Q評価法 (FQE) について検討し, その推定誤差に基づく有限サンプル境界を軽度な仮定で特徴づける。
一般関数近似または深部ReLUネットワークを用いたOPEにおける以前の研究は、アルゴリズムにおけるデータ依存構造を無視し、OPEの技術的なボトルネックを無視する一方で、かなり制限された規則性仮定を必要とする。
本研究では,これらの制約を克服し,深いReLUネットワークを用いたOPEの包括的解析を行う。
特に、オフラインデータの分布シフト、入力空間の寸法、システムの規則性がOPE推定誤差をどのように制御するかを正確に定量化します。
その結果,オフライン強化学習と深層学習の相互作用について考察した。
関連論文リスト
- Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - UAV Path Planning Employing MPC- Reinforcement Learning Method for
search and rescue mission [0.0]
複雑で不確実な環境での無人航空路計画(UA V)の課題に取り組む。
本稿では,Long-Short-Term Memory (LSTM) ネットワークに基づくモデル予測制御(MPC)を,Deep Deterministic Policy Gradientアルゴリズムに統合して設計する。
論文 参考訳(メタデータ) (2023-02-21T13:39:40Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。