Fugu-MT 論文翻訳(概要): CoinDICE: Off-Policy Confidence Interval Estimation

論文の概要: CoinDICE: Off-Policy Confidence Interval Estimation

arxiv url: http://arxiv.org/abs/2010.11652v1
Date: Thu, 22 Oct 2020 12:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 05:29:03.011946
Title: CoinDICE: Off-Policy Confidence Interval Estimation
Title（参考訳）: coindice:オフポリシー信頼区間推定
Authors: Bo Dai, Ofir Nachum, Yinlam Chow, Lihong Li, Csaba Szepesv\'ari and Dale Schuurmans
Abstract要約: 強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
参考スコア（独自算出の注目度）: 107.86876722777535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study high-confidence behavior-agnostic off-policy evaluation in reinforcement learning, where the goal is to estimate a confidence interval on a target policy's value, given only access to a static experience dataset collected by unknown behavior policies. Starting from a function space embedding of the linear program formulation of the $Q$-function, we obtain an optimization problem with generalized estimating equation constraints. By applying the generalized empirical likelihood method to the resulting Lagrangian, we propose CoinDICE, a novel and efficient algorithm for computing confidence intervals. Theoretically, we prove the obtained confidence intervals are valid, in both asymptotic and finite-sample regimes. Empirically, we show in a variety of benchmarks that the confidence interval estimates are tighter and more accurate than existing methods.
Abstract（参考訳）: そこでは、未知の行動ポリシーによって収集された静的な経験データセットのみにアクセスした場合のみ、目標とする政策値の信頼区間を推定することを目的としている。関数空間を$Q$-関数の線形プログラム定式化の埋め込みから始めると、一般化された方程式の制約を推定する最適化問題が得られる。一般化された経験的確率法をラグランジアンに適用することにより、信頼区間を計算するための新しい効率的なアルゴリズムであるCoinDICEを提案する。理論的には、得られた信頼区間は漸近的および有限サンプルレジームの両方において有効であることが証明される。実験では,従来の手法よりも信頼区間推定が厳密で正確であることを示す。

関連論文リスト

Pointwise confidence estimation in the non-linear $\ell^2$-regularized least squares [12.352761060862072]
固定設計による $ell2$-regularized 非線形最小二乗集合の高確率非漸近信頼度推定について検討する。つまり、任意の固定テスト入力に対して$x$の予測を保持することを意味する。
論文参考訳（メタデータ） (2025-06-08T11:23:49Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
High Confidence Level Inference is Almost Free using Parallel Stochastic Optimization [16.38026811561888]
本稿では,高効率計算と高速収束による信頼区間構築に焦点をあてた新しい推論手法を提案する。提案手法は,推定値の標準的な更新を超える最小限の計算量とメモリを必要とするため,推論処理はほとんどコストがかからない。
論文参考訳（メタデータ） (2024-01-17T17:11:45Z)
Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文参考訳（メタデータ） (2023-05-23T19:57:57Z)
Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文参考訳（メタデータ） (2022-03-24T01:04:17Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。原始双対最適化に基づく実践的アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-03-09T22:31:20Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文参考訳（メタデータ） (2020-08-15T07:24:38Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。