論文の概要: Bellman-consistent Pessimism for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.06926v6
- Date: Mon, 23 Oct 2023 23:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 03:59:35.583960
- Title: Bellman-consistent Pessimism for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのベルマン整合悲観論
- Authors: Tengyang Xie, Ching-An Cheng, Nan Jiang, Paul Mineiro, Alekh Agarwal
- Abstract要約: 一般関数近似に対するベルマン一貫性悲観論の概念を導入する。
我々の理論的な保証は、探索的な設定において標準としてベルマン閉性を必要とするだけである。
- 参考スコア(独自算出の注目度): 46.97637726255375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of pessimism, when reasoning about datasets lacking exhaustive
exploration has recently gained prominence in offline reinforcement learning.
Despite the robustness it adds to the algorithm, overly pessimistic reasoning
can be equally damaging in precluding the discovery of good policies, which is
an issue for the popular bonus-based pessimism. In this paper, we introduce the
notion of Bellman-consistent pessimism for general function approximation:
instead of calculating a point-wise lower bound for the value function, we
implement pessimism at the initial state over the set of functions consistent
with the Bellman equations. Our theoretical guarantees only require Bellman
closedness as standard in the exploratory setting, in which case bonus-based
pessimism fails to provide guarantees. Even in the special case of linear
function approximation where stronger expressivity assumptions hold, our result
improves upon a recent bonus-based approach by $\mathcal{O}(d)$ in its sample
complexity when the action space is finite. Remarkably, our algorithms
automatically adapt to the best bias-variance tradeoff in the hindsight,
whereas most prior approaches require tuning extra hyperparameters a priori.
- Abstract(参考訳): 悲観主義の使用は、徹底的な探索を欠いたデータセットについての推論が、最近オフラインの強化学習において注目されている。
アルゴリズムに頑丈さが加わったにも拘わらず、過度に悲観的な推論は、良い政策の発見を先延ばしする上でも同様に打撃を与える可能性がある。
本稿では,一般関数近似に対するベルマン整合悲観主義の概念を紹介する: 値関数に対する点回り下界を計算する代わりに,ベルマン方程式に一致する関数の集合上の初期状態における悲観主義を実装する。
我々の理論的な保証は、探索的設定において標準としてベルマン閉包のみを必要とするが、その場合ボーナスに基づく悲観主義は保証を提供しない。
より強い表現性仮定が成立する線型関数近似の特別な場合においても、作用空間が有限である場合のサンプル複雑性において、この結果は$\mathcal{O}(d)$による最近のボーナスベースのアプローチにより改善される。
驚くべきことに、我々のアルゴリズムは後見の最良のバイアス分散トレードオフに自動的に適応するが、ほとんどの以前のアプローチは、事前の余分なハイパーパラメータをチューニングする必要がある。
関連論文リスト
- The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation [29.69428894587431]
本稿では,線形関数近似を用いたオフラインRL問題について検討する。
我々の構造的前提は、MDPはベルマン誤差が低いということである。
我々は、$sqrtvarepsilon_mathrmBE$によるサブ最適性のスケーリングは、どんなアルゴリズムでも改善できないことを示した。
論文 参考訳(メタデータ) (2024-06-17T16:04:06Z) - Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。
従来の悲観的アプローチと類似した統計的保証を得る。
我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文 参考訳(メタデータ) (2023-06-13T17:29:50Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - When is Realizability Sufficient for Off-Policy Reinforcement Learning? [17.317841035807696]
我々は,所定の機能クラスに対してのみ実現可能性を持つ場合,非政治強化学習の統計的複雑さを分析する。
ベルマン誤差と呼ばれる近似誤差項を含まない非政治強化学習の有限サンプル保証を確立する。
論文 参考訳(メタデータ) (2022-11-10T03:15:31Z) - Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T02:14:10Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Analysis and Optimisation of Bellman Residual Errors with Neural
Function Approximation [0.0]
近年のDeep Reinforcement Learningは,大規模あるいは連続的な状態空間における課題解決において,ニューラルネットワークの優れた性能を実証している。
1つの具体的なアプローチは、Mean Squared Bellman Error関数を最小化することで、ニューラルネットワークを近似値にデプロイすることである。
論文 参考訳(メタデータ) (2021-06-16T13:35:14Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。