論文の概要: From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2603.09436v1
- Date: Tue, 10 Mar 2026 09:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.215057
- Title: From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation
- Title(参考訳): 重み付けからモデリングへ:オフポリティ評価のための非パラメトリック推定器
- Authors: Rong J. B. Zhu,
- Abstract要約: 文脈的包帯の設定における政治以外の評価について検討する。
我々は、文脈、行動、報酬からなる歴史的データを用いて、新しい政策を評価することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study off-policy evaluation in the setting of contextual bandits, where we aim to evaluate a new policy using historical data that consists of contexts, actions and received rewards. This historical data typically does not faithfully represent action distribution of the new policy accurately. A common approach, inverse probability weighting (IPW), adjusts for these discrepancies in action distributions. However, this method often suffers from high variance due to the probability being in the denominator. The doubly robust (DR) estimator reduces variance through modeling reward but does not directly address variance from IPW. In this work, we address the limitation of IPW by proposing a Nonparametric Weighting (NW) approach that constructs weights using a nonparametric model. Our NW approach achieves low bias like IPW but typically exhibits significantly lower variance. To further reduce variance, we incorporate reward predictions -- similar to the DR technique -- resulting in the Model-assisted Nonparametric Weighting (MNW) approach. The MNW approach yields accurate value estimates by explicitly modeling and mitigating bias from reward modeling, without aiming to guarantee the standard doubly robust property. Extensive empirical comparisons show that our approaches consistently outperform existing techniques, achieving lower variance in value estimation while maintaining low bias.
- Abstract(参考訳): そこで我々は,文脈・行動・報酬からなる歴史的データを用いて,新たな政策を評価することを目的とした,文脈的盗賊の設定における政治以外の評価について検討する。
この歴史的データは、通常、新しい方針の行動分布を正確に表現しない。
共通のアプローチである逆確率重み付け(IPW)は、動作分布におけるこれらの相違を調節する。
しかし、この方法は分母の確率のためにしばしば高いばらつきに悩まされる。
二重ロバスト(DR)推定器は、モデリング報酬によってばらつきを減少させるが、IPWからのばらつきに直接対処しない。
本稿では、非パラメトリックモデルを用いて重みを構成する非パラメトリック重み付け(NW)アプローチを提案することにより、IPWの限界に対処する。
我々のNWアプローチはIPWのような低バイアスを実現するが、典型的には非常に低い分散を示す。
さらにばらつきを低減するために、モデル支援非パラメトリックウェイトリング(MNW)アプローチによる報酬予測(DR手法と類似)を取り入れた。
MNWアプローチは、標準的な二重頑健性を保証することを目的として、報酬モデリングからのバイアスを明示的にモデル化し緩和することで正確な値推定を行う。
大規模な実験による比較の結果,我々の手法は既存の手法より一貫して優れており,バイアスを低く保ちながら価値推定のばらつきが低いことがわかった。
関連論文リスト
- Causal Inference as Distribution Adaptation: Optimizing ATE Risk under Propensity Uncertainty [0.0]
我々は、分散シフトの下で、ATE推定をテキストドメイン適応問題として再フレーミングする。
結果モデルの共同学習を行うためのtextbfJoint Robust Estimator (JRE) を提案する。
論文 参考訳(メタデータ) (2025-12-19T21:40:46Z) - Regularizing Extrapolation in Causal Inference [12.057981453189505]
我々は外挿のレベルを直接罰する統一的な枠組みを提案する。
最悪の外挿誤差を導出し、新しい「バイアスバイアス分散」トレードオフを導入する。
論文 参考訳(メタデータ) (2025-09-21T18:05:15Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Doubly Robust Estimator for Off-Policy Evaluation with Large Action
Spaces [0.951828574518325]
大規模行動空間を持つ文脈的帯域設定におけるオフ・ポリティ・アセスメントについて検討する。
ベンチマーク評価者は 厳しい偏見と ばらつきのトレードオフに苦しむ
本稿では,これらの制約を克服するために,Marginalized Doubly Robust (MDR) 推定器を提案する。
論文 参考訳(メタデータ) (2023-08-07T10:00:07Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - On lower bounds for the bias-variance trade-off [0.0]
高次元統計モデルでは、速度-最適推定器は二乗バイアスと分散のバランスをとるのが一般的である。
本稿では, 既定境界よりも小さい偏差を持つ任意の推定器の分散に関する下限を求める一般戦略を提案する。
これは、バイアス分散トレードオフがどの程度避けられないかを示し、従わないメソッドのパフォーマンスの損失を定量化することができる。
論文 参考訳(メタデータ) (2020-05-30T14:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。