論文の概要: Causal-Policy Forest for End-to-End Policy Learning
- arxiv url: http://arxiv.org/abs/2512.22846v1
- Date: Sun, 28 Dec 2025 09:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.250156
- Title: Causal-Policy Forest for End-to-End Policy Learning
- Title(参考訳): エンド・ツー・エンド政策学習のための因果林
- Authors: Masahiro Kato,
- Abstract要約: 本研究では、因果推論におけるポリシー学習のためのエンドツーエンドアルゴリズムを提案する。
我々は、政策学習のためのエンドツーエンドCATE推定アルゴリズムである因果林を修正した。
- 参考スコア(独自算出の注目度): 6.44705221140412
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study proposes an end-to-end algorithm for policy learning in causal inference. We observe data consisting of covariates, treatment assignments, and outcomes, where only the outcome corresponding to the assigned treatment is observed. The goal of policy learning is to train a policy from the observed data, where a policy is a function that recommends an optimal treatment for each individual, to maximize the policy value. In this study, we first show that maximizing the policy value is equivalent to minimizing the mean squared error for the conditional average treatment effect (CATE) under $\{-1, 1\}$ restricted regression models. Based on this finding, we modify the causal forest, an end-to-end CATE estimation algorithm, for policy learning. We refer to our algorithm as the causal-policy forest. Our algorithm has three advantages. First, it is a simple modification of an existing, widely used CATE estimation method, therefore, it helps bridge the gap between policy learning and CATE estimation in practice. Second, while existing studies typically estimate nuisance parameters for policy learning as a separate task, our algorithm trains the policy in a more end-to-end manner. Third, as in standard decision trees and random forests, we train the models efficiently, avoiding computational intractability.
- Abstract(参考訳): 本研究では、因果推論におけるポリシー学習のためのエンドツーエンドアルゴリズムを提案する。
我々は、与えられた処置に対応する結果のみを観察する共変量、治療課題、結果からなるデータを観察する。
政策学習の目的は、各個人に対して最適な治療を推奨する機能であり、政策価値を最大化する、観察されたデータから政策を訓練することである。
本研究では, 条件付き平均処理効果(CATE)の平均二乗誤差を${-1, 1\}$制限回帰モデルで最小化することと同値であることを示す。
この発見に基づいて、政策学習のためのエンドツーエンドCATE推定アルゴリズムである因果林を修正した。
我々は我々のアルゴリズムを因果政治林と呼ぶ。
私たちのアルゴリズムには3つの利点がある。
まず,既存のCATE推定手法の簡単な修正であり,政策学習とCATE推定のギャップを埋めるのに役立つ。
第二に、既存の研究では、政策学習のニュアンスパラメータを個別のタスクとして推定するのに対し、アルゴリズムはよりエンドツーエンドでポリシーを訓練する。
第3に、標準的な決定木やランダムな森林のように、計算の難易度を回避してモデルを効率的に訓練する。
関連論文リスト
- Bridging the Gap between Empirical Welfare Maximization and Conditional Average Treatment Effect Estimation in Policy Learning [6.44705221140412]
政策学習における2つの主要なアプローチ:経験的人口福祉(EWM)アプローチとプラグインアプローチ。
この研究は、両者が本質的に同じ最適化問題に基づいていることを示すことによって、両者のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-10-30T17:23:40Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。