論文の概要: Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings
- arxiv url: http://arxiv.org/abs/2506.02793v1
- Date: Tue, 03 Jun 2025 12:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.620118
- Title: Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings
- Title(参考訳): 対物政策平均埋め込みの二重ロバスト推定
- Authors: Houssam Zenati, Bariscan Bozkurt, Arthur Gretton,
- Abstract要約: 反ファクトポリシーの下での成果の分配を推定することは、推薦、広告、医療といった領域における意思決定にとって重要である。
我々は、再生されたカーネルヒルベルト空間の反事実分布全体を表す新しいフレームワーク-Counterfactual Policy Mean Embedding (CPME) を解析する。
- 参考スコア(独自算出の注目度): 24.07815507403025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the distribution of outcomes under counterfactual policies is critical for decision-making in domains such as recommendation, advertising, and healthcare. We analyze a novel framework-Counterfactual Policy Mean Embedding (CPME)-that represents the entire counterfactual outcome distribution in a reproducing kernel Hilbert space (RKHS), enabling flexible and nonparametric distributional off-policy evaluation. We introduce both a plug-in estimator and a doubly robust estimator; the latter enjoys improved uniform convergence rates by correcting for bias in both the outcome embedding and propensity models. Building on this, we develop a doubly robust kernel test statistic for hypothesis testing, which achieves asymptotic normality and thus enables computationally efficient testing and straightforward construction of confidence intervals. Our framework also supports sampling from the counterfactual distribution. Numerical simulations illustrate the practical benefits of CPME over existing methods.
- Abstract(参考訳): 反ファクトポリシーの下での成果の分配を推定することは、推薦、広告、医療といった領域における意思決定にとって重要である。
我々は、再生カーネルヒルベルト空間(RKHS)における反事実分布全体を表す新しいフレームワーク-Counterfactual Policy Mean Embedding (CPME) を分析し、フレキシブルで非パラメトリックなオフポリティ評価を可能にする。
プラグイン推定器と2倍頑健な推定器の両方を導入し、後者は結果埋め込みモデルと確率モデルの両方においてバイアスを補正することで一様収束率の向上を享受する。
そこで我々は, 漸近的正規性を達成し, 計算効率の良いテストと信頼区間の簡単な構築を可能にする, 仮説テストのための二重頑健なカーネルテスト統計法を開発した。
また,本フレームワークは,対物分布のサンプリングもサポートしている。
計算シミュレーションは既存の手法よりもCPMEの実用性を示している。
関連論文リスト
- Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Max-Rank: Efficient Multiple Testing for Conformal Prediction [43.56898111853698]
多重仮説テスト(MHT)は科学的な調査で頻繁に発生し、複数の仮説の同時テストはタイプIエラーや偽陽性のリスクを膨らませる。
本稿では、予測不確実性定量化のための柔軟なフレームワークである共形予測の文脈において、MHTに対処する。
我々は、ファミリーワイズエラー率を効率的に制御しながら依存関係を利用する新しい補正である$textttmax-rank$を紹介した。
論文 参考訳(メタデータ) (2023-11-17T22:44:22Z) - Communication-Efficient Distributed Estimation and Inference for Cox's Model [4.731404257629232]
我々は, 高次元のスパースコックス比例ハザードモデルにおいて, 推定と推定のための通信効率のよい反復分散アルゴリズムを開発した。
高次元ハザード回帰係数の線形結合に対する信頼区間を構築するために,新しい縮退法を提案する。
我々は、デコラートスコアテストに基づく任意の座標要素に対して、有効かつ強力な分散仮説テストを提供する。
論文 参考訳(メタデータ) (2023-02-23T15:50:17Z) - Doubly Robust Kernel Statistics for Testing Distributional Treatment
Effects [18.791409397894835]
我々は、再生産ケルネルヒルベルト空間(RKHS)内の因果分布を表すために、以前に導入されたフレームワークである対実平均埋め込みを構築した。
これらの改良された推定器は、カーネル空間内の同様の形式を用いて、因果平均の二重に頑健な推定器に着想を得ている。
これにより, 分布因果効果に対する新しい変分に基づく検定が実現し, 提案する推定器を検定統計として利用した。
論文 参考訳(メタデータ) (2022-12-09T15:32:19Z) - Distribution Regression with Sliced Wasserstein Kernels [45.916342378789174]
分布回帰のための最初のOTに基づく推定器を提案する。
このような表現に基づくカーネルリッジ回帰推定器の理論的性質について検討する。
論文 参考訳(メタデータ) (2022-02-08T15:21:56Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。