論文の概要: Bridging the Gap between Empirical Welfare Maximization and Conditional Average Treatment Effect Estimation in Policy Learning
- arxiv url: http://arxiv.org/abs/2510.26723v1
- Date: Thu, 30 Oct 2025 17:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.938969
- Title: Bridging the Gap between Empirical Welfare Maximization and Conditional Average Treatment Effect Estimation in Policy Learning
- Title(参考訳): 政策学習における経験的福祉最大化と条件平均処理効果評価のギャップを埋めること
- Authors: Masahiro Kato,
- Abstract要約: 政策学習には、経験的人口福祉(EWM)アプローチとプラグインアプローチの2つの主要なアプローチがある。
この研究は、両者が本質的に同じ最適化問題に基づいていることを示すことによって、両者のギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 6.44705221140412
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The goal of policy learning is to train a policy function that recommends a treatment given covariates to maximize population welfare. There are two major approaches in policy learning: the empirical welfare maximization (EWM) approach and the plug-in approach. The EWM approach is analogous to a classification problem, where one first builds an estimator of the population welfare, which is a functional of policy functions, and then trains a policy by maximizing the estimated welfare. In contrast, the plug-in approach is based on regression, where one first estimates the conditional average treatment effect (CATE) and then recommends the treatment with the highest estimated outcome. This study bridges the gap between the two approaches by showing that both are based on essentially the same optimization problem. In particular, we prove an exact equivalence between EWM and least squares over a reparameterization of the policy class. As a consequence, the two approaches are interchangeable in several respects and share the same theoretical guarantees under common conditions. Leveraging this equivalence, we propose a novel regularization method for policy learning. Our findings yield a convex and computationally efficient training procedure that avoids the NP-hard combinatorial step typically required in EWM.
- Abstract(参考訳): 政策学習の目標は、人口福祉を最大化するために、共変種に対する治療を推奨する政策機能を訓練することである。
政策学習には、経験的福祉最大化(EWM)アプローチとプラグインアプローチの2つの主要なアプローチがある。
EWMのアプローチは、まず、政策機能の関数である人口福祉の推定器を構築し、次に推定された福祉を最大化して政策を訓練する、という分類問題に類似している。
対照的に、プラグインアプローチは回帰に基づいており、まず最初に条件付き平均治療効果(CATE)を推定し、次に最も高い評価結果で治療を推奨する。
この研究は、両者が本質的に同じ最適化問題に基づいていることを示すことによって、両者のギャップを埋めるものである。
特に、政策クラスの再パラメータ化に関して、EWMと最小二乗の正確な等価性を証明している。
その結果、2つのアプローチはいくつかの点で交換可能であり、共通条件下では同じ理論的保証を共有する。
この等価性を生かして,政策学習のための新しい正規化手法を提案する。
本研究は, 一般にEWMで必要とされるNP-hard組合せステップを回避するために, 凸部と計算効率のよいトレーニング手順を導出する。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。
我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。
そして、推定報酬を最適化することで最適な政策を学ぶ。
論文 参考訳(メタデータ) (2025-01-14T12:33:02Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。