論文の概要: Off-Policy Evaluation and Learning for the Future under Non-Stationarity
- arxiv url: http://arxiv.org/abs/2506.20417v1
- Date: Wed, 25 Jun 2025 13:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.755205
- Title: Off-Policy Evaluation and Learning for the Future under Non-Stationarity
- Title(参考訳): 非定常環境下における将来のためのオフポリティ評価と学習
- Authors: Tatsuhiro Shimizu, Kazuki Kawamura, Takanori Muroi, Yusuke Narita, Kei Tateno, Takuma Udagawa, Yuta Saito,
- Abstract要約: 今後のオフ政治評価(F-OPE)と学習(F-OPL)の新たな課題について検討する。
私たちのゴールは、前月の古い方針で収集されたデータを使って、来月の政策価値を見積り、最適化することにあります。
既存の方法は定常性を仮定するか、制限的な報酬モデリングの仮定に依存し、大きなバイアスをもたらす。
- 参考スコア(独自算出の注目度): 18.657003350333298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the novel problem of future off-policy evaluation (F-OPE) and learning (F-OPL) for estimating and optimizing the future value of policies in non-stationary environments, where distributions vary over time. In e-commerce recommendations, for instance, our goal is often to estimate and optimize the policy value for the upcoming month using data collected by an old policy in the previous month. A critical challenge is that data related to the future environment is not observed in the historical data. Existing methods assume stationarity or depend on restrictive reward-modeling assumptions, leading to significant bias. To address these limitations, we propose a novel estimator named \textit{\textbf{O}ff-\textbf{P}olicy Estimator for the \textbf{F}uture \textbf{V}alue (\textbf{\textit{OPFV}})}, designed for accurately estimating policy values at any future time point. The key feature of OPFV is its ability to leverage the useful structure within time-series data. While future data might not be present in the historical log, we can leverage, for example, seasonal, weekly, or holiday effects that are consistent in both the historical and future data. Our estimator is the first to exploit these time-related structures via a new type of importance weighting, enabling effective F-OPE. Theoretical analysis identifies the conditions under which OPFV becomes low-bias. In addition, we extend our estimator to develop a new policy-gradient method to proactively learn a good future policy using only historical data. Empirical results show that our methods substantially outperform existing methods in estimating and optimizing the future policy value under non-stationarity for various experimental setups.
- Abstract(参考訳): 本研究では,非定常環境における政策の将来的価値を推定し,最適化するための,将来的非政治評価(F-OPE)と学習(F-OPL)の新たな課題について検討する。
例えば、eコマースのレコメンデーションでは、前月の古いポリシーで収集されたデータを使って、来月の政策価値を見積り、最適化することが目標です。
重要な課題は、過去のデータでは将来の環境に関するデータが観測されないことである。
既存の方法は定常性を仮定するか、制限的な報酬モデリングの仮定に依存し、大きなバイアスをもたらす。
これらの制約に対処するため、任意の時点におけるポリシー値を正確に推定するために設計された、新しい推定器である \textit{\textbf{O}ff-\textbf{P}olicy Estimator for the \textbf{F}uture \textbf{V}alue (\textbf{\textit{OPFV}})} を提案する。
OPFVの重要な特徴は、時系列データ内の有用な構造を活用する能力である。
将来のデータは過去のログには存在しないかもしれませんが、例えば、季節、週、休日の両方のデータに一貫性のある効果を活用できます。
我々の推定器は、これらの時間関連構造を新しい重み付けによって活用し、有効F-OPEを実現する。
理論的解析はOPFVが低バイアスとなる条件を特定する。
さらに, 過去のデータのみを用いて, 良好な将来政策を積極的に学習する新しい政策段階の手法を開発するために, 推定装置を拡張した。
実験結果から, 本手法は, 種々の実験装置において, 非定常条件下での今後の政策価値の推定と最適化において, 既存の手法を著しく上回っていることが示された。
関連論文リスト
- Enhancing Mean-Reverting Time Series Prediction with Gaussian Processes:
Functional and Augmented Data Structures in Financial Forecasting [0.0]
本稿では,ガウス過程(GP)を基礎構造を持つ平均回帰時系列の予測に適用する。
GPは、平均予測だけでなく、将来の軌道上の確率分布全体を予測する可能性を提供する。
これは、不正なボラティリティ評価が資本損失につながる場合、正確な予測だけでは十分でない金融状況において特に有益である。
論文 参考訳(メタデータ) (2024-02-23T06:09:45Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Lifelong Hyper-Policy Optimization with Multiple Importance Sampling
Regularization [40.17392342387002]
本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。
この超政治は、推定される将来のパフォーマンスを最大化し、重要サンプリングによって過去のデータを効率的に再利用するように訓練されている。
実環境において、最先端のアルゴリズムと比較して、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-12-13T13:09:49Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。