論文の概要: Harnessing Density Ratios for Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.09681v2
- Date: Tue, 4 Jun 2024 21:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:35:00.670743
- Title: Harnessing Density Ratios for Online Reinforcement Learning
- Title(参考訳): オンライン強化学習におけるハーネス化密度比
- Authors: Philip Amortila, Dylan J. Foster, Nan Jiang, Ayush Sekhari, Tengyang Xie,
- Abstract要約: 密度比に基づくアルゴリズムにはオンラインのアルゴリズムがある。
新しいアルゴリズム (GLOW) は, サンプル効率の良いオンライン探索を行うために, 密度比の実現可能性と値関数の実現可能性を利用する。
- 参考スコア(独自算出の注目度): 35.268369362811676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The theories of offline and online reinforcement learning, despite having evolved in parallel, have begun to show signs of the possibility for a unification, with algorithms and analysis techniques for one setting often having natural counterparts in the other. However, the notion of density ratio modeling, an emerging paradigm in offline RL, has been largely absent from online RL, perhaps for good reason: the very existence and boundedness of density ratios relies on access to an exploratory dataset with good coverage, but the core challenge in online RL is to collect such a dataset without having one to start. In this work we show -- perhaps surprisingly -- that density ratio-based algorithms have online counterparts. Assuming only the existence of an exploratory distribution with good coverage, a structural condition known as coverability (Xie et al., 2023), we give a new algorithm (GLOW) that uses density ratio realizability and value function realizability to perform sample-efficient online exploration. GLOW addresses unbounded density ratios via careful use of truncation, and combines this with optimism to guide exploration. GLOW is computationally inefficient; we complement it with a more efficient counterpart, HyGLOW, for the Hybrid RL setting (Song et al., 2022) wherein online RL is augmented with additional offline data. HyGLOW is derived as a special case of a more general meta-algorithm that provides a provable black-box reduction from hybrid RL to offline RL, which may be of independent interest.
- Abstract(参考訳): オフラインとオンラインの強化学習の理論は、平行して進化してきたにもかかわらず、アルゴリズムと分析技術が一方の環境に自然に相応しいものが存在するという、統一の可能性の兆候を示し始めている。
しかし、オフラインRLにおける新たなパラダイムである密度比モデリングの概念は、おそらく正当な理由から、オンラインRLにはほとんど欠落している。
この研究で、おそらく驚くべきことに、密度比に基づくアルゴリズムがオンラインに匹敵することを示している。
カバービリティ (Xie et al , 2023) とよばれる構造条件である探索分布の存在を前提として, サンプル効率のよいオンライン探索を行うために, 密度比の再現性と値関数の再現性を利用した新しいアルゴリズム (GLOW) を提案する。
GLOWは、トラルニケートを慎重に使用することで、非有界密度比に対処し、これを最適化と組み合わせて探索をガイドする。
より効率的なHyGLOWを補完し、オンラインRLにオフラインデータを追加して拡張するハイブリッドRL設定(Song et al , 2022)を行う。
HyGLOW は、ハイブリッド RL からオフライン RL への証明可能なブラックボックス還元を提供する、より一般的なメタアルゴリズムの特別なケースとして派生している。
関連論文リスト
- A Natural Extension To Online Algorithms For Hybrid RL With Limited Coverage [7.438754486636558]
私たちは、よく設計されたオンラインアルゴリズムがオフラインデータセットの"ギャップを埋める"必要があることを示しています。
オフラインデータセットが単一政治中心性を持っていなくても、ハイブリッドデータから同様の証明可能なゲインが得られることを示す。
論文 参考訳(メタデータ) (2024-03-07T19:39:47Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - What can online reinforcement learning with function approximation
benefit from general coverage conditions? [53.90873926758026]
オンライン強化学習(RL)では、マルコフ決定過程(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件を使用するだけで十分である。
本研究は,より可能で一般的なカバレッジ条件を掘り下げることにより,この新たな方向性に焦点をあてる。
我々は、集中度の変化である$Lp$の変動、密度比の実現可能性、部分/レストカバレッジ条件でのトレードオフなど、さらに多くの概念を識別する。
論文 参考訳(メタデータ) (2023-04-25T14:57:59Z) - Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient [42.47810044648846]
エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。
従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用し,ハイブリッドQラーニングやHy-Qと呼ぶ。
ニューラルネットワーク関数近似を用いたHy-Qは、挑戦的なベンチマークにおいて、最先端のオンライン、オフライン、ハイブリッドRLベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:19:05Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。