Fugu-MT 論文翻訳(概要): Reliable Off-policy Evaluation for Reinforcement Learning

論文の概要: Reliable Off-policy Evaluation for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2011.04102v2
Date: Fri, 15 Jan 2021 16:34:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 08:10:21.050224
Title: Reliable Off-policy Evaluation for Reinforcement Learning
Title（参考訳）: 強化学習のための信頼性のあるオフポリシー評価
Authors: Jie Wang, Rui Gao, Hongyuan Zha
Abstract要約: シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 53.486680020852724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In a sequential decision-making problem, off-policy evaluation estimates the expected cumulative reward of a target policy using logged trajectory data generated from a different behavior policy, without execution of the target policy. Reinforcement learning in high-stake environments, such as healthcare and education, is often limited to off-policy settings due to safety or ethical concerns, or inability of exploration. Hence it is imperative to quantify the uncertainty of the off-policy estimate before deployment of the target policy. In this paper, we propose a novel framework that provides robust and optimistic cumulative reward estimates using one or multiple logged trajectories data. Leveraging methodologies from distributionally robust optimization, we show that with proper selection of the size of the distributional uncertainty set, these estimates serve as confidence bounds with non-asymptotic and asymptotic guarantees under stochastic or adversarial environments. Our results are also generalized to batch reinforcement learning and are supported by empirical analysis.
Abstract（参考訳）: 逐次意思決定問題では、目標政策の実行なしに異なる行動方針から生成されたログ付き軌跡データを用いて、目標政策の累積報酬を推定する。医療や教育といった高リスク環境における強化学習は、安全や倫理上の懸念、探検のできないことなどにより、オフポリシー設定に限定されることが多い。したがって、ターゲットポリシーを展開する前に、オフポリシー推定の不確実性を定量化することが不可欠である。本稿では,1つないし複数の軌跡データを用いて,頑健で楽観的な累積報酬推定を行う新しいフレームワークを提案する。分布的ロバストな最適化の手法を活用し,分布的不確実性集合のサイズを適切に選択することで,確率的あるいは敵対的環境下での非漸近的および漸近的保証の信頼境界となることを示す。この結果はバッチ強化学習にも一般化され,実証分析によって支援される。

関連論文リスト

Reinforcement Learning with Continuous Actions Under Unmeasured Confounding [14.510042451844766]
本稿では,連続行動空間を用いた強化学習におけるオフライン政策学習の課題に対処する。我々は,ミニマックス推定器を開発し,クラス内最適ポリシーを特定するためのポリシー勾配に基づくアルゴリズムを提案する。得られた最適方針の整合性、有限サンプル誤差境界、後悔境界に関する理論的結果を提供する。
論文参考訳（メタデータ） (2025-05-01T04:55:29Z)
Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。そして、推定報酬を最適化することで最適な政策を学ぶ。
論文参考訳（メタデータ） (2025-01-14T12:33:02Z)
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文参考訳（メタデータ） (2024-05-29T06:17:33Z)
Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文参考訳（メタデータ） (2023-10-10T19:47:27Z)
Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文参考訳（メタデータ） (2023-03-11T11:42:26Z)
Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文参考訳（メタデータ） (2022-12-29T22:01:43Z)
A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文参考訳（メタデータ） (2022-08-19T00:55:05Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文参考訳（メタデータ） (2020-06-06T15:52:05Z)
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。我々は、ある政策の境界を推定するアプローチを開発する。より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文参考訳（メタデータ） (2020-02-11T16:18:14Z)
Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文参考訳（メタデータ） (2020-02-10T18:41:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。