論文の概要: Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement
for Value Error
- arxiv url: http://arxiv.org/abs/2201.12417v1
- Date: Fri, 28 Jan 2022 21:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:02:47.778840
- Title: Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement
for Value Error
- Title(参考訳): なぜ君を信頼すべきなのか、ベルマン?
Bellman Errorは価値エラーの少ない代替品
- Authors: Scott Fujimoto, David Meger, Doina Precup, Ofir Nachum, Shixiang Shane
Gu
- Abstract要約: 本研究では,ベルマン方程式を値予測精度の代用目的として用いることを検討した。
ベルマン誤差は値関数の精度の指標として不十分であることがわかった。
- 参考スコア(独自算出の注目度): 83.10489974736404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the use of the Bellman equation as a surrogate
objective for value prediction accuracy. While the Bellman equation is uniquely
solved by the true value function over all state-action pairs, we find that the
Bellman error (the difference between both sides of the equation) is a poor
proxy for the accuracy of the value function. In particular, we show that (1)
due to cancellations from both sides of the Bellman equation, the magnitude of
the Bellman error is only weakly related to the distance to the true value
function, even when considering all state-action pairs, and (2) in the finite
data regime, the Bellman equation can be satisfied exactly by infinitely many
suboptimal solutions. This means that the Bellman error can be minimized
without improving the accuracy of the value function. We demonstrate these
phenomena through a series of propositions, illustrative toy examples, and
empirical analysis in standard benchmark domains.
- Abstract(参考訳): 本研究では,ベルマン方程式を数値予測精度の代用目的として利用することを検討した。
ベルマン方程式はすべての状態-作用対上の真の値関数によって一意に解かれるが、ベルマン誤差(方程式の両側の違い)は値関数の精度の指標として不十分である。
特に, 1) ベルマン方程式の両辺のキャンセルにより, ベルマン誤差の大きさは, すべての状態-作用対を考慮に入れた場合でも, 真の値関数との距離と弱い関係しかなく, 2) 有限データ状態においては, ベルマン方程式は無限に多くの準最適解によって正確に満たされることを示す。
これは、値関数の精度を向上することなくベルマン誤差を最小化できることを意味する。
これらの現象を、一連の命題、例示的なトイ例、標準ベンチマークドメインにおける経験的分析を通じて実証する。
関連論文リスト
- The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation [29.69428894587431]
本稿では,線形関数近似を用いたオフラインRL問題について検討する。
我々の構造的前提は、MDPはベルマン誤差が低いということである。
我々は、$sqrtvarepsilon_mathrmBE$によるサブ最適性のスケーリングは、どんなアルゴリズムでも改善できないことを示した。
論文 参考訳(メタデータ) (2024-06-17T16:04:06Z) - On the Uniqueness of Solution for the Bellman Equation of LTL Objectives [12.918524838804016]
2つの割引係数を持つベルマン方程式の解の特異性は明らかに議論されていない。
次に、ベルマン方程式が一意解として期待される戻り値を持つ条件を提案する。
論文 参考訳(メタデータ) (2024-04-07T21:06:52Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - When is Realizability Sufficient for Off-Policy Reinforcement Learning? [17.317841035807696]
我々は,所定の機能クラスに対してのみ実現可能性を持つ場合,非政治強化学習の統計的複雑さを分析する。
ベルマン誤差と呼ばれる近似誤差項を含まない非政治強化学習の有限サンプル保証を確立する。
論文 参考訳(メタデータ) (2022-11-10T03:15:31Z) - Robust Losses for Learning Value Functions [26.515147684526124]
強化学習におけるほとんどの値関数学習アルゴリズムは、平均2乗(投影)ベルマン誤差に基づいている。
我々は、サドルポイント最適化問題として正方形ベルマン誤差を修正した最近の知見に基づいて構築する。
オンラインのオフライン予測と制御設定の両方において、これらの損失を最小限に抑えるために、音の勾配に基づくアプローチを導出する。
論文 参考訳(メタデータ) (2022-05-17T16:10:05Z) - Bellman-consistent Pessimism for Offline Reinforcement Learning [46.97637726255375]
一般関数近似に対するベルマン一貫性悲観論の概念を導入する。
我々の理論的な保証は、探索的な設定において標準としてベルマン閉性を必要とするだけである。
論文 参考訳(メタデータ) (2021-06-13T05:50:36Z) - Non-Boolean Hidden Variables model reproduces Quantum Mechanics'
predictions for Bell's experiment [91.3755431537592]
ベルの不等式に反することを目的とした理論は、ブール論理を諦めることから始めなければならない。
ハード」問題は、単一粒子が検出された時の時間値を予測することである。
「ソフト」の問題は、ベルの不平等が(非ブール的)地方リアリズムに違反していることを説明することである。
論文 参考訳(メタデータ) (2020-05-20T21:46:35Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。