論文の概要: DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects
- arxiv url: http://arxiv.org/abs/2505.00961v2
- Date: Wed, 21 May 2025 11:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.411559
- Title: DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects
- Title(参考訳): DOLCE: 外部評価/学習を遅延と電流効果に分解する
- Authors: Shu Tamano, Masanori Nojima,
- Abstract要約: オフ政治評価(OPE)とオフ政治学習(OPL)は、歴史的データを利用して対象の政策を評価し最適化する。
複数の時間点からの文脈情報を利用して、報酬をラグと現在の効果に分解する新しい推定器であるラグとカレントエフェクトに非政治評価/学習を分解するDOLCEを提案する。
実験の結果,DOLCE は OPE と OPL の大幅な改善を実現していることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) and off-policy learning (OPL) for contextual bandit policies leverage historical data to evaluate and optimize a target policy. Most existing OPE/OPL methods--based on importance weighting or imputation--assume common support between the target and logging policies. When this assumption is violated, these methods typically require unstable extrapolation, truncation, or conservative strategies for individuals outside the common support assumption. However, such approaches can be inadequate in settings where explicit evaluation or optimization for such individuals is required. To address this issue, we propose DOLCE: Decomposing Off-policy evaluation/learning into Lagged and Current Effects, a novel estimator that leverages contextual information from multiple time points to decompose rewards into lagged and current effects. By incorporating both past and present contexts, DOLCE effectively handles individuals who violate the common support assumption. We show that the proposed estimator is unbiased under two assumptions--local correctness and conditional independence. Our experiments demonstrate that DOLCE achieves substantial improvements in OPE and OPL, particularly as the proportion of individuals outside the common support assumption increases.
- Abstract(参考訳): オフ政治評価(OPE)とオフ政治学習(OPL)は、歴史的データを利用して対象の政策を評価し最適化する。
既存のOPE/OPLメソッドは、重要度重み付けや命令に基づいて、ターゲットとロギングポリシの共通サポートを仮定する。
この仮定が破られた場合、これらの手法は一般的に、不安定な外挿、切り離し、あるいは共通の支持前提外の個人に対する保守的な戦略を必要とする。
しかし、そのような個人に対する明示的な評価や最適化が必要な環境では、そのようなアプローチは不十分である。
この問題に対処するために、我々はDOLCEを提案する: オフ・ポリティクスの評価/学習をラグ・アンド・カレント・エフェクトに分解する、複数時点からの文脈情報を利用してラグ・アンド・カレント・エフェクトに報酬を分解する新しい推定器。
過去と現在の両方の文脈を取り入れることで、DOLCEは共通のサポート前提に反する個人を効果的に扱う。
提案手法は局所的正当性と条件付き独立性という2つの仮定の下で不偏性を示す。
実験の結果,DOLCE は OPE と OPL の大幅な改善を実現していることが明らかとなった。
関連論文リスト
- $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Offline Recommender System Evaluation under Unobserved Confounding [5.4208903577329375]
オフライン推定手法により,ログデータから意思決定ポリシーを学習し,評価することができる。
この仕事を行う重要な前提は、観測されていない共同設立者がいないことである。
この研究は、保守されていない共同ファウンダーの存在下で、政治外の見積もりを行うときに生じる問題を強調することを目的としている。
論文 参考訳(メタデータ) (2023-09-08T09:11:26Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。