Fugu-MT 論文翻訳(概要): A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning

論文の概要: A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2104.13844v1
Date: Wed, 28 Apr 2021 15:50:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-29 12:58:45.675912
Title: A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning
Title（参考訳）: 強化学習におけるオフポリシー値推定のための一般化投影ベルマン誤差
Authors: Andrew Patterson, Adam White, Sina Ghiassian, Martha White
Abstract要約: 線形 PBE を非線形設定に拡張する一般化 PBE を導入する。実行時により安定な一般化目的を最小化するために,使い勝手の良い音声アルゴリズムを導出する。
参考スコア（独自算出の注目度）: 37.6353054242066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many reinforcement learning algorithms rely on value estimation. However, the most widely used algorithms -- namely temporal difference algorithms -- can diverge under both off-policy sampling and nonlinear function approximation. Many algorithms have been developed for off-policy value estimation which are sound under linear function approximation, based on the linear mean-squared projected Bellman error (PBE). Extending these methods to the non-linear case has been largely unsuccessful. Recently, several methods have been introduced that approximate a different objective, called the mean-squared Bellman error (BE), which naturally facilities nonlinear approximation. In this work, we build on these insights and introduce a new generalized PBE, that extends the linear PBE to the nonlinear setting. We show how this generalized objective unifies previous work, including previous theory, and obtain new bounds for the value error of the solutions of the generalized objective. We derive an easy-to-use, but sound, algorithm to minimize the generalized objective which is more stable across runs, is less sensitive to hyperparameters, and performs favorably across four control domains with neural network function approximation.
Abstract（参考訳）: 多くの強化学習アルゴリズムは値推定に依存している。しかし、最も広く使われているアルゴリズム、すなわち時間差アルゴリズムは、オフポリシーサンプリングと非線形関数近似の両方の下で分岐することができる。線形平均二乗射影ベルマン誤差 (PBE) に基づいて, 線形関数近似の下での音場推定のための多くのアルゴリズムを開発した。これらの手法を非線形ケースに拡張することは、ほとんど成功していない。近年, 平均二乗ベルマン誤差 (BE) と呼ばれる, 非線形近似を自然に設ける手法がいくつか提案されている。本研究では,これらの知見に基づいて線形PBEを非線形設定に拡張する一般化されたPBEを導入する。本稿では,この一般化目的が先行理論を含む先行研究をどのように統一するかを示し,一般化目的の解の値誤差に対する新たな境界を求める。動作中により安定し、ハイパーパラメータに敏感で、ニューラルネットワーク関数近似の4つの制御領域で好適に機能する、汎用目的を最小化するための、使い易いが音のアルゴリズムを導出する。

関連論文リスト

Stability-based Generalization Bounds for Variational Inference [3.146069168382982]
変分推論(VI)はベイズ機械学習における近似推論に広く用いられている。本稿では、近似ベイズアルゴリズムのクラスに対する安定性に基づく一般化境界を開発する。新しいアプローチはPAC-Bayes分析を補完し、場合によってはより厳密な境界を提供する。
論文参考訳（メタデータ） (2025-02-17T22:40:26Z)
WENDy for Nonlinear-in-Parameters ODEs [2.066079080612853]
WENDy-MLE は局所非収束最適化手法を用いて最大極大推定器を近似する。 WENDy-MLEは精度が良く、収束領域がかなり大きく、しばしば他の弱い形式法や従来の出力誤差最小二乗法よりも高速である。本稿では, ODE のベンチマークシステムを用いて, 提案手法, その他の弱い形状法, および出力誤差最小二乗を比較検討した。
論文参考訳（メタデータ） (2025-02-13T01:40:21Z)
Quantitative Error Bounds for Scaling Limits of Stochastic Iterative Algorithms [10.022615790746466]
アルゴリズムのサンプルパスとOrnstein-Uhlenbeck近似の非漸近関数近似誤差を導出する。我々は、L'evy-Prokhorov と有界ワッサーシュタイン距離という2つの一般的な測度で誤差境界を構築するために、主要な結果を使用する。
論文参考訳（メタデータ） (2025-01-21T15:29:11Z)
A Variance Minimization Approach to Temporal-Difference Learning [12.026021568207206]
本稿では,誤差最小化の代わりに値ベースRLに対する分散最小化(VM)手法を提案する。提案手法では,ベルマン誤差 (VBE) と投影ベルマン誤差 (VPBE) の2つの目的について検討した。
論文参考訳（メタデータ） (2024-11-10T08:56:16Z)
Agnostic Learning of Mixed Linear Regressions with EM and AM Algorithms [22.79595679373698]
混合線形回帰は統計学と機械学習においてよく研究されている問題である。本稿では、サンプルから混合線形回帰を学習する際のより一般的な問題について考察する。 AMアルゴリズムとEMアルゴリズムは, 集団損失最小化器に収束することにより, 混合線形回帰学習につながることを示す。
論文参考訳（メタデータ） (2024-06-03T09:43:24Z)
Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文参考訳（メタデータ） (2024-01-26T20:45:40Z)
Hyperparameter Estimation for Sparse Bayesian Learning Models [1.0172874946490507]
Aparse Bayesian Learning (SBL) モデルは、信号処理や機械学習において、階層的な事前処理による疎結合を促進するために広く使われている。本稿では,種々の目的関数に対するSBLモデルの改良のためのフレームワークを提案する。信号雑音比において, 高い効率性を示す新しいアルゴリズムが導入された。
論文参考訳（メタデータ） (2024-01-04T21:24:01Z)
Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return [1.3162012586770577]
軌道上の非線形選好を用いた多目的強化学習について検討した。非線形最適化のためのベルマン最適性の拡張形式を導出する。アルゴリズムによって計算される最適ポリシーと代替基準との間には,かなりのギャップがあることが示される。
論文参考訳（メタデータ） (2023-11-05T02:11:07Z)
Non-stationary Reinforcement Learning under General Function Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。 SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文参考訳（メタデータ） (2023-06-01T16:19:37Z)
Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文参考訳（メタデータ） (2023-03-31T02:10:30Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-08T00:43:04Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。