論文の概要: On the Statistical Efficiency of Reward-Free Exploration in Non-Linear
RL
- arxiv url: http://arxiv.org/abs/2206.10770v1
- Date: Tue, 21 Jun 2022 23:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 13:35:56.394131
- Title: On the Statistical Efficiency of Reward-Free Exploration in Non-Linear
RL
- Title(参考訳): 非線形rlにおける報酬フリー探索の統計的効率について
- Authors: Jinglin Chen, Aditya Modi, Akshay Krishnamurthy, Nan Jiang, Alekh
Agarwal
- Abstract要約: 一般非線形関数近似による報酬なし強化学習(RL)について検討した。
RFOLIVE (Reward-Free OLIVE) アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 54.55689632571575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reward-free reinforcement learning (RL) under general non-linear
function approximation, and establish sample efficiency and hardness results
under various standard structural assumptions. On the positive side, we propose
the RFOLIVE (Reward-Free OLIVE) algorithm for sample-efficient reward-free
exploration under minimal structural assumptions, which covers the previously
studied settings of linear MDPs (Jin et al., 2020b), linear completeness
(Zanette et al., 2020b) and low-rank MDPs with unknown representation (Modi et
al., 2021). Our analyses indicate that the explorability or reachability
assumptions, previously made for the latter two settings, are not necessary
statistically for reward-free exploration. On the negative side, we provide a
statistical hardness result for both reward-free and reward-aware exploration
under linear completeness assumptions when the underlying features are unknown,
showing an exponential separation between low-rank and linear completeness
settings.
- Abstract(参考訳): 一般非線形関数近似による報酬不要強化学習 (RL) について検討し, 各種の標準構造仮定に基づくサンプル効率と硬度の評価を行った。
正の面では,前述した線形mdp(jin et al., 2020b),線形完全性(zanette et al., 2020b),未知表現の低ランクmdps(modi et al., 2021)を対象とする,最小構造仮定下でのサンプル効率な報酬なし探索のためのrfolive(reward-free olive)アルゴリズムを提案する。
分析の結果, 探索可能性や到達可能性の仮定は, 従来の2つの設定では, 報酬のない探索には統計的に必要ではないことがわかった。
負の面では, 線形完全性仮定の下では, 低ランクと線形完全性設定の指数関数的分離を示す線形完全性仮定の下で, 無報酬と無報酬の両方を探索する統計的難易度結果を提供する。
関連論文リスト
- Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。