論文の概要: A Generalized Projected Bellman Error for Off-policy Value Estimation in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.13844v1
- Date: Wed, 28 Apr 2021 15:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:58:45.675912
- Title: A Generalized Projected Bellman Error for Off-policy Value Estimation in
Reinforcement Learning
- Title(参考訳): 強化学習におけるオフポリシー値推定のための一般化投影ベルマン誤差
- Authors: Andrew Patterson, Adam White, Sina Ghiassian, Martha White
- Abstract要約: 線形 PBE を非線形設定に拡張する一般化 PBE を導入する。
実行時により安定な一般化目的を最小化するために,使い勝手の良い音声アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 37.6353054242066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning algorithms rely on value estimation. However, the
most widely used algorithms -- namely temporal difference algorithms -- can
diverge under both off-policy sampling and nonlinear function approximation.
Many algorithms have been developed for off-policy value estimation which are
sound under linear function approximation, based on the linear mean-squared
projected Bellman error (PBE). Extending these methods to the non-linear case
has been largely unsuccessful. Recently, several methods have been introduced
that approximate a different objective, called the mean-squared Bellman error
(BE), which naturally facilities nonlinear approximation. In this work, we
build on these insights and introduce a new generalized PBE, that extends the
linear PBE to the nonlinear setting. We show how this generalized objective
unifies previous work, including previous theory, and obtain new bounds for the
value error of the solutions of the generalized objective. We derive an
easy-to-use, but sound, algorithm to minimize the generalized objective which
is more stable across runs, is less sensitive to hyperparameters, and performs
favorably across four control domains with neural network function
approximation.
- Abstract(参考訳): 多くの強化学習アルゴリズムは値推定に依存している。
しかし、最も広く使われているアルゴリズム、すなわち時間差アルゴリズムは、オフポリシーサンプリングと非線形関数近似の両方の下で分岐することができる。
線形平均二乗射影ベルマン誤差 (PBE) に基づいて, 線形関数近似の下での音場推定のための多くのアルゴリズムを開発した。
これらの手法を非線形ケースに拡張することは、ほとんど成功していない。
近年, 平均二乗ベルマン誤差 (BE) と呼ばれる, 非線形近似を自然に設ける手法がいくつか提案されている。
本研究では,これらの知見に基づいて線形PBEを非線形設定に拡張する一般化されたPBEを導入する。
本稿では,この一般化目的が先行理論を含む先行研究をどのように統一するかを示し,一般化目的の解の値誤差に対する新たな境界を求める。
動作中により安定し、ハイパーパラメータに敏感で、ニューラルネットワーク関数近似の4つの制御領域で好適に機能する、汎用目的を最小化するための、使い易いが音のアルゴリズムを導出する。
関連論文リスト
- Regularized Q-Learning with Linear Function Approximation [3.10770247120758]
本稿では,有限時間収束保証によるベルマン誤差最小化のための単一ループアルゴリズムについて考察する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - A multiobjective continuation method to compute the regularization path
of deep neural networks [1.534667887016089]
線形モデルに基づく機械学習アプローチでは、疎外解と非正規化解との間に接続経路が存在する。
本稿では,上記の目的に対して,パレートフロント全体の近似を可能にするアルゴリズムを提案する。
さらに、正規化パスの知識がネットワークパラメトリゼーションの一般化を可能にすることを実証する。
論文 参考訳(メタデータ) (2023-08-23T10:08:52Z) - A Stochastic Bundle Method for Interpolating Networks [18.313879914379008]
本稿では,実験的な損失をゼロにすることができるディープニューラルネットワークのトレーニング手法を提案する。
各イテレーションにおいて,本手法は目的学習近似のバンドルとして知られる最大線形近似を構成する。
論文 参考訳(メタデータ) (2022-01-29T23:02:30Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical
Comparison [17.692408242465763]
バッチ強化学習において、$Qstar$を近似する2つのアルゴリズムの性能保証を証明する。
アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」困難を克服するために、新しく明確な重要度重み付け補正を使用する。
論文 参考訳(メタデータ) (2020-03-09T05:12:39Z) - The estimation error of general first order methods [12.472245917779754]
我々は,高次元回帰と低次元行列推定という2種類の推定問題を考察する。
我々は、観測数とパラメータ数の両方が分岐する高次元最適値の誤差を下界に導出する。
これらの下界は、推定誤差が下界とわずかに無視可能な項に一致するアルゴリズムが存在することを意味している。
論文 参考訳(メタデータ) (2020-02-28T18:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。