論文の概要: Distributional Off-policy Evaluation with Bellman Residual Minimization
- arxiv url: http://arxiv.org/abs/2402.01900v1
- Date: Fri, 2 Feb 2024 20:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:43:03.355295
- Title: Distributional Off-policy Evaluation with Bellman Residual Minimization
- Title(参考訳): ベルマン残差最小化による分布的オフポリシー評価
- Authors: Sungee Hong, Zhengling Qi, Raymond K. W. Wong
- Abstract要約: 分布ベルマン残差の定量化のための予測拡張統計距離について検討した。
本稿では,Energy Bellman Residual Minimizer (EBRM) という手法を提案する。
- 参考スコア(独自算出の注目度): 13.873397698625443
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We consider the problem of distributional off-policy evaluation which serves
as the foundation of many distributional reinforcement learning (DRL)
algorithms. In contrast to most existing works (that rely on supremum-extended
statistical distances such as supremum-Wasserstein distance), we study the
expectation-extended statistical distance for quantifying the distributional
Bellman residuals and show that it can upper bound the expected error of
estimating the return distribution. Based on this appealing property, by
extending the framework of Bellman residual minimization to DRL, we propose a
method called Energy Bellman Residual Minimizer (EBRM) to estimate the return
distribution. We establish a finite-sample error bound for the EBRM estimator
under the realizability assumption. Furthermore, we introduce a variant of our
method based on a multi-step bootstrapping procedure to enable multi-step
extension. By selecting an appropriate step level, we obtain a better error
bound for this variant of EBRM compared to a single-step EBRM, under some
non-realizability settings. Finally, we demonstrate the superior performance of
our method through simulation studies, comparing with several existing methods.
- Abstract(参考訳): 本稿では,多くの分散強化学習(drl)アルゴリズムの基礎となる分布的オフポリシー評価の問題を考える。
既存のほとんどの研究(上限-ワッサーシュタイン距離のような超拡張統計距離に依存する)とは対照的に、分布ベルマン残差を定量化するための予想拡張統計距離を研究し、返却分布を推定する期待誤差を上限にすることができることを示す。
本稿では,ベルマン残差最小化の枠組みをDRLに拡張することにより,リターン分布を推定するEnergy Bellman Residual Minimizer(EBRM)を提案する。
本研究では, EBRM推定器の有限サンプル誤差を実現可能性仮定の下で確立する。
さらに,マルチステップ拡張を実現するために,マルチステップブートストラップ方式に基づく手法の変種を提案する。
適切なステップレベルを選択することで、単一ステップのEBRMに比べて、いくつかの非実現可能性設定の下で、この変種EBRMに対してより良いエラーバウンドが得られる。
最後に,本手法の優れた性能をシミュレーション研究により実証し,既存手法との比較を行った。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Non-Negative Bregman Divergence Minimization for Deep Direct Density
Ratio Estimation [18.782750537161615]
実験的なBD推定器の非負の補正手法を提案する。
提案手法は,不整合型外乱検出において良好な性能を示す。
論文 参考訳(メタデータ) (2020-06-12T07:39:03Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。