論文の概要: A Variant of the Wang-Foster-Kakade Lower Bound for the Discounted
Setting
- arxiv url: http://arxiv.org/abs/2011.01075v2
- Date: Wed, 4 Nov 2020 03:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:46:04.015910
- Title: A Variant of the Wang-Foster-Kakade Lower Bound for the Discounted
Setting
- Title(参考訳): 値引き設定のためのwang-foster-kakade下限の変種
- Authors: Philip Amortila, Nan Jiang, Tengyang Xie
- Abstract要約: 縮小された設定に適応すれば、構成を1次元の特徴を持つ2状態のMDPに単純化できることを示す。
本稿では, 1次元特徴を持つ2状態のMDPに構成を単純化し, 無限量のデータでも学習が不可能であることを示す。
- 参考スコア(独自算出の注目度): 18.27421133143278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Wang et al. (2020) showed a highly intriguing hardness result for
batch reinforcement learning (RL) with linearly realizable value function and
good feature coverage in the finite-horizon case. In this note we show that
once adapted to the discounted setting, the construction can be simplified to a
2-state MDP with 1-dimensional features, such that learning is impossible even
with an infinite amount of data.
- Abstract(参考訳): 近年, Wang et al. (2020) は, 線形実現可能な値関数を持つバッチ強化学習 (RL) において, 有限ホライゾンの場合において, 高い難易度を示した。
本稿では,1次元の特徴を持つ2状態のMDPに構成を単純化し,無限のデータでも学習が不可能であることを示す。
関連論文リスト
- Horizon-Free Regret for Linear Markov Decision Processes [92.02082223856479]
最近の一連の研究は、強化学習における残念な境界が(ほぼ)計画的地平から独立していることを示している。
我々は、人気のある線形マルコフ決定過程(MDP)設定に対して、最初の地平面自由境界を与える。
遷移モデルを明示的に推定し、不均一な値関数を計算する先行研究とは対照的に、直接値関数と信頼集合を推定する。
論文 参考訳(メタデータ) (2024-03-15T23:50:58Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Optimal Learners for Realizable Regression: PAC Learning and Online Learning [52.37726841759983]
本研究では,PAC学習環境とオンライン学習環境の両方において,実現可能な回帰の統計的複雑さを特徴付けることを目的とする。
まず,再現可能な回帰のためのミニマックスインスタンス最適学習器を導入し,実数値予測器のどのクラスが学習可能であるかを質的かつ定量的に特徴付ける新しい次元を提案する。
オンライン学習の文脈では、最小の最適インスタンス最適累積損失を一定要素まで特徴付ける次元を提供し、再現可能な回帰のための最適オンライン学習者を設計する。
論文 参考訳(メタデータ) (2023-07-07T21:39:25Z) - Escaping mediocrity: how two-layer networks learn hard generalized
linear models with SGD [29.162265194920522]
本研究では,グラディエント・Descent (SGD) の下で一般化線形目標関数を学習するための2層ニューラルネットワークのサンプル複雑性について検討する。
オーバーファクター化は、この問題クラス内の定数因子による収束を増大させることしかできないことを示す。
しかし,このプロセスの決定論的近似は脱走時間を適切に表現し,SGDityの役割は最小限である可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-29T14:40:56Z) - On the Statistical Efficiency of Reward-Free Exploration in Non-Linear
RL [54.55689632571575]
一般非線形関数近似による報酬なし強化学習(RL)について検討した。
RFOLIVE (Reward-Free OLIVE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-21T23:17:43Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling [28.371541697552928]
一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。
最悪の場合,RL問題のランクパラメータでスケールが保証される。
論文 参考訳(メタデータ) (2022-03-15T20:50:26Z) - Online Sparse Reinforcement Learning [60.44832065993122]
固定地平線, スパース線形決定過程(MDP)におけるオンライン強化学習の難しさについて検討する。
この場合、よく条件付きデータを収集するポリシーが存在するとしても、線形後悔は一般的に避けられないことを示す。
このことは、大規模な行動において、学習の難しさは、優れた探索政策を見つけるのが困難であることに起因していることを示している。
論文 参考訳(メタデータ) (2020-11-08T16:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。