論文の概要: When is Realizability Sufficient for Off-Policy Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2211.05311v2
- Date: Tue, 6 Jun 2023 01:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:35:22.623864
- Title: When is Realizability Sufficient for Off-Policy Reinforcement Learning?
- Title(参考訳): オフポリティ強化学習はいつ実現可能か?
- Authors: Andrea Zanette
- Abstract要約: 我々は,所定の機能クラスに対してのみ実現可能性を持つ場合,非政治強化学習の統計的複雑さを分析する。
ベルマン誤差と呼ばれる近似誤差項を含まない非政治強化学習の有限サンプル保証を確立する。
- 参考スコア(独自算出の注目度): 17.317841035807696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free algorithms for reinforcement learning typically require a
condition called Bellman completeness in order to successfully operate
off-policy with function approximation, unless additional conditions are met.
However, Bellman completeness is a requirement that is much stronger than
realizability and that is deemed to be too strong to hold in practice. In this
work, we relax this structural assumption and analyze the statistical
complexity of off-policy reinforcement learning when only realizability holds
for the prescribed function class.
We establish finite-sample guarantees for off-policy reinforcement learning
that are free of the approximation error term known as inherent Bellman error,
and that depend on the interplay of three factors. The first two are well
known: they are the metric entropy of the function class and the
concentrability coefficient that represents the cost of learning off-policy.
The third factor is new, and it measures the violation of Bellman completeness,
namely the mis-alignment between the chosen function class and its image
through the Bellman operator.
In essence, these error bounds establish that off-policy reinforcement
learning remains statistically viable even in absence of Bellman completeness,
and characterize the intermediate situation between the favorable Bellman
complete setting and the worst-case scenario where exponential lower bounds are
in force. Our analysis directly applies to the solution found by temporal
difference algorithms when they converge.
- Abstract(参考訳): 強化学習のためのモデルフリーアルゴリズムは通常、追加の条件が満たされない限り、関数近似でオフポリシーをうまく操作するためにベルマン完全性と呼ばれる条件を必要とする。
しかし、ベルマン完全性は実現可能性よりもはるかに強い要件であり、実際に保持するには強すぎると考えられている。
本研究では, この構造的仮定を緩和し, 所定の関数クラスにのみ実現可能である場合に, 外部強化学習の統計的複雑さを解析する。
我々は,本質的ベルマン誤差として知られる近似誤差項を含まない,3つの因子の相互作用に依存するオフ・ポリティカル強化学習のための有限サンプル保証を確立する。
最初の2つはよく知られており、それらは函数クラスの計量エントロピーであり、非政治学習のコストを表す集中係数である。
第3の要素は新しいもので、ベルマン完全性、すなわち選択された関数クラスとベルマン演算子によるイメージの誤調整を計測する。
本質的に、これらの誤差境界は、ベルマン完全性がなくても、オフ・ポリティカル強化学習は統計的に有益であり、好ましくないベルマン完全設定と指数的に下限が強制される最悪のシナリオの間の中間的な状況を特徴付ける。
我々の分析は、時間差アルゴリズムが収束する際の解に直接適用される。
関連論文リスト
- Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions [29.69428894587431]
ベルマンが成り立つと仮定し、これらの回帰問題が十分に特定されていることを保証している。
数作用が定数であるとき、線形ベルマンの下でRLの最初の特別なアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-06-17T15:24:49Z) - Regularized Q-Learning with Linear Function Approximation [3.10770247120758]
本稿では,有限時間収束保証によるベルマン誤差最小化のための単一ループアルゴリズムについて考察する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Robust Losses for Learning Value Functions [26.515147684526124]
強化学習におけるほとんどの値関数学習アルゴリズムは、平均2乗(投影)ベルマン誤差に基づいている。
我々は、サドルポイント最適化問題として正方形ベルマン誤差を修正した最近の知見に基づいて構築する。
オンラインのオフライン予測と制御設定の両方において、これらの損失を最小限に抑えるために、音の勾配に基づくアプローチを導出する。
論文 参考訳(メタデータ) (2022-05-17T16:10:05Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement
for Value Error [83.10489974736404]
本研究では,ベルマン方程式を値予測精度の代用目的として用いることを検討した。
ベルマン誤差は値関数の精度の指標として不十分であることがわかった。
論文 参考訳(メタデータ) (2022-01-28T21:03:59Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Bellman-consistent Pessimism for Offline Reinforcement Learning [46.97637726255375]
一般関数近似に対するベルマン一貫性悲観論の概念を導入する。
我々の理論的な保証は、探索的な設定において標準としてベルマン閉性を必要とするだけである。
論文 参考訳(メタデータ) (2021-06-13T05:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。