Fugu-MT 論文翻訳(概要): Distributional Off-policy Evaluation with Bellman Residual Minimization

論文の概要: Distributional Off-policy Evaluation with Bellman Residual Minimization

arxiv url: http://arxiv.org/abs/2402.01900v1
Date: Fri, 2 Feb 2024 20:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 23:43:03.355295
Title: Distributional Off-policy Evaluation with Bellman Residual Minimization
Title（参考訳）: ベルマン残差最小化による分布的オフポリシー評価
Authors: Sungee Hong, Zhengling Qi, Raymond K. W. Wong
Abstract要約: 分布ベルマン残差の定量化のための予測拡張統計距離について検討した。本稿では,Energy Bellman Residual Minimizer (EBRM) という手法を提案する。
参考スコア（独自算出の注目度）: 13.873397698625443
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We consider the problem of distributional off-policy evaluation which serves as the foundation of many distributional reinforcement learning (DRL) algorithms. In contrast to most existing works (that rely on supremum-extended statistical distances such as supremum-Wasserstein distance), we study the expectation-extended statistical distance for quantifying the distributional Bellman residuals and show that it can upper bound the expected error of estimating the return distribution. Based on this appealing property, by extending the framework of Bellman residual minimization to DRL, we propose a method called Energy Bellman Residual Minimizer (EBRM) to estimate the return distribution. We establish a finite-sample error bound for the EBRM estimator under the realizability assumption. Furthermore, we introduce a variant of our method based on a multi-step bootstrapping procedure to enable multi-step extension. By selecting an appropriate step level, we obtain a better error bound for this variant of EBRM compared to a single-step EBRM, under some non-realizability settings. Finally, we demonstrate the superior performance of our method through simulation studies, comparing with several existing methods.
Abstract（参考訳）: 本稿では,多くの分散強化学習(drl)アルゴリズムの基礎となる分布的オフポリシー評価の問題を考える。既存のほとんどの研究(上限-ワッサーシュタイン距離のような超拡張統計距離に依存する)とは対照的に、分布ベルマン残差を定量化するための予想拡張統計距離を研究し、返却分布を推定する期待誤差を上限にすることができることを示す。本稿では,ベルマン残差最小化の枠組みをDRLに拡張することにより,リターン分布を推定するEnergy Bellman Residual Minimizer(EBRM)を提案する。本研究では, EBRM推定器の有限サンプル誤差を実現可能性仮定の下で確立する。さらに,マルチステップ拡張を実現するために,マルチステップブートストラップ方式に基づく手法の変種を提案する。適切なステップレベルを選択することで、単一ステップのEBRMに比べて、いくつかの非実現可能性設定の下で、この変種EBRMに対してより良いエラーバウンドが得られる。最後に,本手法の優れた性能をシミュレーション研究により実証し,既存手法との比較を行った。

関連論文リスト

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
Improved Policy Evaluation for Randomized Trials of Algorithmic Resource Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文参考訳（メタデータ） (2023-02-06T05:17:22Z)
STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文参考訳（メタデータ） (2023-01-30T18:29:35Z)
Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文参考訳（メタデータ） (2022-08-18T06:42:49Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文参考訳（メタデータ） (2021-09-15T13:25:14Z)
Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文参考訳（メタデータ） (2021-02-06T16:45:33Z)
Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。 Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2020-07-24T05:18:17Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。