論文の概要: Smooth Multi-Policy Causal Effect Estimation in Longitudinal Settings
- arxiv url: http://arxiv.org/abs/2605.14284v1
- Date: Thu, 14 May 2026 02:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.586036
- Title: Smooth Multi-Policy Causal Effect Estimation in Longitudinal Settings
- Title(参考訳): 縦配置におけるスムース多目的因果効果の推定
- Authors: Wenxin Chen, Weishen Pan, Kyra Gan, Fei Wang,
- Abstract要約: 本稿では,共有表現による共同推定が可能な反復条件予測(ICE)Q-関数の再パラメータ化を提案する。
共有ポリシエンコーダを中心としたアーキテクチャであるPEQ-Net(Policy-Encoded Q Network)において,このアプローチを実装した。
半合成データセットの実験では、PEQ-Netは既存のICEベースの手法よりも一貫して優れており、ルート平均二乗誤差の大幅な削減を実現している。
- 参考スコア(独自算出の注目度): 13.1234934131475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comparative evaluation of multiple dynamic treatment policies is essential for healthcare and policy decisions, yet conventional longitudinal causal inference methods estimate each in isolation, preventing information sharing across counterfactuals. We demonstrate that this separate estimation paradigm induces a structurally uncontrolled second-order bias, inflating finite-sample variance even after standard debiasing with longitudinal targeted maximum likelihood estimation(LTMLE). To address this, we propose a policy-aware reparameterization of Iterative Conditional Expectation (ICE) Q-functions that enables joint estimation through shared representations. We implement this approach in the Policy-Encoded Q Network (PEQ-Net), an architecture centered on a shared policy encoder. The encoder is trained using kernel mean embeddings, ensuring that the learned representation space reflects population-level policy dissimilarities. After applying an LTMLE correction step, we prove this design imposes a structural constraint on the second-order remainder, thereby stabilizing finite-sample variance. Experiments on semi-synthetic datasets demonstrate that PEQ-Net consistently outperforms existing ICE-based methods, achieving substantial reductions in root-mean-square error, particularly when evaluating closely related policies.
- Abstract(参考訳): 複数の動的治療方針の比較評価は,医療や政策決定に不可欠であるが,従来の縦断的因果推論手法では,それぞれが単独で推定され,カウンターファクトリー間での情報共有が防止される。
この分離された推定パラダイムは、長手目標最大推定(LTMLE)による標準偏差後の有限サンプル分散を膨らませ、構造的に制御されていない二階偏差を誘導することを示した。
そこで本研究では,共有表現による共同推定が可能な反復条件予測(ICE)Q-関数のポリシー対応再パラメータ化を提案する。
共有ポリシエンコーダを中心としたアーキテクチャであるPEQ-Net(Policy-Encoded Q Network)において,このアプローチを実装した。
エンコーダはカーネル平均埋め込みを用いて訓練され、学習された表現空間が人口レベルでのポリシーの相違を反映していることを保証する。
LTMLE補正ステップを適用した後、この設計が2階残差に構造的制約を課すことを証明し、有限サンプル分散を安定化させる。
半合成データセットの実験は、PEQ-Netが既存のICEベースの手法を一貫して上回り、特に密接に関連するポリシーを評価する際に、ルート平均二乗誤差を大幅に減少させることを示した。
関連論文リスト
- A Single Deep Preference-Conditioned Policy for Learning Pareto Coverage Sets [0.4369550829556578]
非線形スカラー化下での優先-解決対応の特異性と連続性について検討した。
この問題を解決するために,スムーズなTchebycheffスカラー化を単調な効用として用いた。
各更新は、以前のポリシーを参考に、Kullback-Leibler-regularized MDPの解決と等価であることを示す。
論文 参考訳(メタデータ) (2026-05-09T13:35:50Z) - Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations [19.77729438305312]
収縮拡散ポリシ(CDPs)は拡散サンプリング力学において収縮挙動を誘導する。
CDPはベースラインポリシーよりも優れており、データ不足下では顕著なメリットがある。
論文 参考訳(メタデータ) (2026-01-02T23:33:59Z) - Conformal Prediction Beyond the Horizon: Distribution-Free Inference for Policy Evaluation [14.811119246685534]
本研究では,無限水平政策評価のための統一型コンフォメーション予測フレームワークを提案する。
本手法は,分布RLと共形キャリブレーション,観測されないリターン,時間依存性,分布シフトといった課題に対処する。
論文 参考訳(メタデータ) (2025-10-29T23:45:44Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。