論文の概要: What can online reinforcement learning with function approximation
benefit from general coverage conditions?
- arxiv url: http://arxiv.org/abs/2304.12886v2
- Date: Wed, 31 May 2023 15:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:43:03.844196
- Title: What can online reinforcement learning with function approximation
benefit from general coverage conditions?
- Title(参考訳): 機能近似によるオンライン強化学習は, 一般的なカバレッジ条件から何の恩恵を受けられるか?
- Authors: Fanghui Liu, Luca Viano, Volkan Cevher
- Abstract要約: オンライン強化学習(RL)では、マルコフ決定過程(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件を使用するだけで十分である。
本研究は,より可能で一般的なカバレッジ条件を掘り下げることにより,この新たな方向性に焦点をあてる。
我々は、集中度の変化である$Lp$の変動、密度比の実現可能性、部分/レストカバレッジ条件でのトレードオフなど、さらに多くの概念を識別する。
- 参考スコア(独自算出の注目度): 53.90873926758026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In online reinforcement learning (RL), instead of employing standard
structural assumptions on Markov decision processes (MDPs), using a certain
coverage condition (original from offline RL) is enough to ensure
sample-efficient guarantees (Xie et al. 2023). In this work, we focus on this
new direction by digging more possible and general coverage conditions, and
study the potential and the utility of them in efficient online RL. We identify
more concepts, including the $L^p$ variant of concentrability, the density
ratio realizability, and trade-off on the partial/rest coverage condition, that
can be also beneficial to sample-efficient online RL, achieving improved regret
bound. Furthermore, if exploratory offline data are used, under our coverage
conditions, both statistically and computationally efficient guarantees can be
achieved for online RL. Besides, even though the MDP structure is given, e.g.,
linear MDP, we elucidate that, good coverage conditions are still beneficial to
obtain faster regret bound beyond $\widetilde{O}(\sqrt{T})$ and even a
logarithmic order regret. These results provide a good justification for the
usage of general coverage conditions in efficient online RL.
- Abstract(参考訳): オンライン強化学習(RL)では、マルコフ決定プロセス(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件(元々オフラインRLから)を用いることで、サンプル効率の保証を確保するのに十分である(Xie et al. 2023)。
本研究では,この新たな方向性に焦点をあてて,より可能かつ一般的なカバレッジ条件を掘り下げ,効率的なオンラインrlにおけるその可能性と有用性について検討する。
我々は、集中度の変化、密度比の再現性、部分/レスト被覆条件でのトレードオフなど、より多くの概念を同定し、サンプル効率の良いオンラインRLにも有益であり、改善された後悔境界を達成できる。
さらに,オンラインrlでは,探索的オフラインデータを用いることで,統計的かつ計算効率のよい保証を実現することができる。
さらに、mdp構造(例えば線形mdp)が与えられたとしても、良好なカバレッジ条件は、$\widetilde{o}(\sqrt{t})$ を超えるより早い後悔を得るのに有益であり、また対数順序の後悔も得られる。
これらの結果は、効率的なオンラインRLにおける一般的なカバレッジ条件の使用を正当化する。
関連論文リスト
- The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - Harnessing Density Ratios for Online Reinforcement Learning [35.268369362811676]
密度比に基づくアルゴリズムにはオンラインのアルゴリズムがある。
新しいアルゴリズム (GLOW) は, サンプル効率の良いオンライン探索を行うために, 密度比の実現可能性と値関数の実現可能性を利用する。
論文 参考訳(メタデータ) (2024-01-18T02:21:06Z) - The Provable Benefits of Unsupervised Data Sharing for Offline
Reinforcement Learning [25.647624787936028]
オフライン強化学習に報酬のないデータを利用する新しいPDS(Provable Data Sharing Algorithm)を提案する。
PDSは、報酬のないデータを用いたオフラインRLアルゴリズムの性能を大幅に改善する。
論文 参考訳(メタデータ) (2023-02-27T03:35:02Z) - The Role of Coverage in Online Reinforcement Learning [72.01066664756986]
優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:50:05Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。