論文の概要: Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism
- arxiv url: http://arxiv.org/abs/2203.05804v1
- Date: Fri, 11 Mar 2022 09:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 11:57:16.606498
- Title: Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism
- Title(参考訳): 線形表現を用いた準最適オフライン強化学習:ペシミズムを用いた可変情報の活用
- Authors: Ming Yin, Yaqi Duan, Mengdi Wang, Yu-Xiang Wang
- Abstract要約: オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
- 参考スコア(独自算出の注目度): 65.46524775457928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning, which seeks to utilize offline/historical
data to optimize sequential decision-making strategies, has gained surging
prominence in recent studies. Due to the advantage that appropriate function
approximators can help mitigate the sample complexity burden in modern
reinforcement learning problems, existing endeavors usually enforce powerful
function representation models (e.g. neural networks) to learn the optimal
policies. However, a precise understanding of the statistical limits with
function representations, remains elusive, even when such a representation is
linear.
Towards this goal, we study the statistical limits of offline reinforcement
learning with linear model representations. To derive the tight offline
learning bound, we design the variance-aware pessimistic value iteration
(VAPVI), which adopts the conditional variance information of the value
function for time-inhomogeneous episodic linear Markov decision processes
(MDPs). VAPVI leverages estimated variances of the value functions to reweight
the Bellman residuals in the least-square pessimistic value iteration and
provides improved offline learning bounds over the best-known existing results
(whereas the Bellman residuals are equally weighted by design). More
importantly, our learning bounds are expressed in terms of system quantities,
which provide natural instance-dependent characterizations that previous
results are short of. We hope our results draw a clearer picture of what
offline learning should look like when linear representations are provided.
- Abstract(参考訳): 近年,オフライン/歴史的データを用いて意思決定戦略を最適化するオフライン強化学習が盛んに行われている。
適切な関数近似器が現代の強化学習問題におけるサンプル複雑性の軽減に役立つという利点があるため、既存の取り組みは通常、最適なポリシーを学ぶために強力な関数表現モデル(ニューラルネットワークなど)を強制する。
しかし、関数表現による統計的極限の正確な理解は、そのような表現が線型である場合でも、解明される。
この目的に向けて,線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
そこで我々は,時間不均一なエピソドックス線形マルコフ決定過程(mdps)における値関数の条件付き分散情報を取り入れた分散認識型悲観値反復(vapvi)を設計した。
vapviは、最小二乗悲観的価値反復におけるベルマン残差の重み付けに値関数の推定分散を活用し、最もよく知られた結果(ベルマン残差は設計によって等しく重み付けされる)に対してオフライン学習境界の改善を提供する。
さらに重要なことは、我々の学習境界はシステム量で表され、前回の結果が不足しているような自然なインスタンス依存の特性を提供する。
線形表現が提供されるとき、オフライン学習がどのようなものになるか、より明確な図が得られればと思っています。
関連論文リスト
- Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。