論文の概要: Neural Network Approximation for Pessimistic Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2312.11863v1
- Date: Tue, 19 Dec 2023 05:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:03:34.753094
- Title: Neural Network Approximation for Pessimistic Offline Reinforcement
Learning
- Title(参考訳): 悲観的オフライン強化学習のためのニューラルネットワーク近似
- Authors: Di Wu, Yuling Jiao, Li Shen, Haizhao Yang, Xiliang Lu
- Abstract要約: 一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
- 参考スコア(独自算出の注目度): 17.756108291816908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) has shown remarkable success in specific
offline decision-making scenarios, yet its theoretical guarantees are still
under development. Existing works on offline RL theory primarily emphasize a
few trivial settings, such as linear MDP or general function approximation with
strong assumptions and independent data, which lack guidance for practical use.
The coupling of deep learning and Bellman residuals makes this problem
challenging, in addition to the difficulty of data dependence. In this paper,
we establish a non-asymptotic estimation error of pessimistic offline RL using
general neural network approximation with $\mathcal{C}$-mixing data regarding
the structure of networks, the dimension of datasets, and the concentrability
of data coverage, under mild assumptions. Our result shows that the estimation
error consists of two parts: the first converges to zero at a desired rate on
the sample size with partially controllable concentrability, and the second
becomes negligible if the residual constraint is tight. This result
demonstrates the explicit efficiency of deep adversarial offline RL frameworks.
We utilize the empirical process tool for $\mathcal{C}$-mixing sequences and
the neural network approximation theory for the H\"{o}lder class to achieve
this. We also develop methods to bound the Bellman estimation error caused by
function approximation with empirical Bellman constraint perturbations.
Additionally, we present a result that lessens the curse of dimensionality
using data with low intrinsic dimensionality and function classes with low
complexity. Our estimation provides valuable insights into the development of
deep offline RL and guidance for algorithm model design.
- Abstract(参考訳): deep reinforcement learning (rl)は、特定のオフライン意思決定シナリオで顕著な成功を収めているが、理論的保証はまだ開発中である。
オフラインRL理論に関する既存の研究は、線形 MDP や強い仮定と独立したデータを持つ一般関数近似など、実用上のガイダンスが欠如しているいくつかの自明な設定を強調している。
ディープラーニングとベルマン残差の結合は、データ依存の難しさに加えて、この問題を難しくする。
本稿では,ネットワーク構造,データセットの次元,データカバレッジの集中性に関するデータと,$\mathcal{c}$-mixingデータとの一般ニューラルネットワーク近似を用いて,悲観的オフラインrlの非漸近的推定誤差を,軽度な仮定の下で確立する。
その結果, 推定誤差は2つの部分から構成されることが明らかとなった。第1は, 部分的に制御可能な集中性を持つサンプルサイズにおいて, 所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
この結果は、deep adversarial offline rlフレームワークの明示的な効率を示す。
我々は,$\mathcal{c}$-mixing 列に対する経験的プロセスツールと,h\"{o}lder クラスのニューラルネットワーク近似理論を用いてこれを実現する。
また,経験的ベルマン制約摂動による関数近似によるベルマン推定誤差の束縛手法も開発した。
さらに,本研究では,低内在次元データと低複雑性関数クラスを用いて,次元の呪いを軽減する結果を示す。
我々の推定は、ディープオフラインRLの開発とアルゴリズムモデル設計のガイダンスに関する貴重な洞察を提供する。
関連論文リスト
- Deep learning from strongly mixing observations: Sparse-penalized regularization and minimax optimality [0.0]
ディープニューラルネットワーク予測器のスパースペナル化正規化について検討する。
正方形と幅広い損失関数を扱う。
論文 参考訳(メタデータ) (2024-06-12T15:21:51Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - On the Lipschitz Constant of Deep Networks and Double Descent [5.381801249240512]
ディープネットワークの一般化誤差に関する既存の境界は、入力変数への滑らかなあるいは有界な依存を仮定する。
二重降下中の深層ネットワークにおける経験的リプシッツ定数に関する実験的検討を行った。
論文 参考訳(メタデータ) (2023-01-28T23:22:49Z) - Distributionally Robust Offline Reinforcement Learning with Linear
Function Approximation [16.128778192359327]
我々は、ソース環境から得られた履歴データを用いてRLエージェントを学習し、摂動環境において良好に動作するように最適化する。
我々は、線形関数次元$d$に応じて、我々のアルゴリズムが$O(sqrtK)$の亜最適性を達成できることを証明した。
論文 参考訳(メタデータ) (2022-09-14T13:17:59Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。