論文の概要: NeoRL: Efficient Exploration for Nonepisodic RL
- arxiv url: http://arxiv.org/abs/2406.01175v2
- Date: Tue, 4 Jun 2024 09:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:28:45.164566
- Title: NeoRL: Efficient Exploration for Nonepisodic RL
- Title(参考訳): NeoRL:非異方性RLの効率的な探索
- Authors: Bhavya Sukhija, Lenart Treven, Florian Dörfler, Stelian Coros, Andreas Krause,
- Abstract要約: 非線形力学系における非線形強化学習(RL)の問題点について検討する。
我々は不確実性に直面した楽観主義の原理に基づくNonepisodic Optimistic RL(NeoRL)を提案する。
- 参考スコア(独自算出の注目度): 50.67294735645895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of nonepisodic reinforcement learning (RL) for nonlinear dynamical systems, where the system dynamics are unknown and the RL agent has to learn from a single trajectory, i.e., without resets. We propose Nonepisodic Optimistic RL (NeoRL), an approach based on the principle of optimism in the face of uncertainty. NeoRL uses well-calibrated probabilistic models and plans optimistically w.r.t. the epistemic uncertainty about the unknown dynamics. Under continuity and bounded energy assumptions on the system, we provide a first-of-its-kind regret bound of $\setO(\beta_T \sqrt{T \Gamma_T})$ for general nonlinear systems with Gaussian process dynamics. We compare NeoRL to other baselines on several deep RL environments and empirically demonstrate that NeoRL achieves the optimal average cost while incurring the least regret.
- Abstract(参考訳): 非線形力学系における非線形強化学習(Nonpisodic reinforcement learning, RL)の問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づくNonepisodic Optimistic RL(NeoRL)を提案する。
NeoRLはよく校正された確率モデルを使用し、未知のダイナミクスに関する認識的不確実性を楽観的に計画する。
連続性と系上の有界エネルギー仮定の下では、ガウス過程のダイナミクスを持つ一般非線形系に対して$\setO(\beta_T \sqrt{T \Gamma_T})$の第一次後悔境界を与える。
我々はNeoRLをいくつかの深いRL環境における他のベースラインと比較し、NeoRLが最小の後悔を招きながら最適な平均コストを達成することを実証した。
関連論文リスト
- Hybrid Reinforcement Learning Breaks Sample Size Barriers in Linear MDPs [15.033410073144939]
Xie ら (2022) による重要な疑問は、ハイブリッド RL が純粋にオフラインかつ純粋にオンラインの RL で確立された既存の下位境界に対して改善できるかどうかである。
本研究では,線形関数近似を用いたPACと後悔最小化RLの計算効率のよいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-08T15:26:18Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z) - Reinforcement Learning for Classical Planning: Viewing Heuristics as
Dense Reward Generators [54.6441336539206]
本稿では,RLのサンプル効率を向上させるために,古典的計画文献でよく用いられるドメイン非依存関数を活用することを提案する。
これらの古典は、スパース・リワード問題を緩和し、RLエージェントが残余としてドメイン固有の値関数を学習できるようにするために、密度の高い報酬生成器として機能する。
いくつかの古典的計画領域において、古典論理を RL に用いた場合、スパース逆 RL と比較してサンプル効率が良いことを実証する。
論文 参考訳(メタデータ) (2021-09-30T03:36:01Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。