論文の概要: Quantile-Optimal Policy Learning under Unmeasured Confounding
- arxiv url: http://arxiv.org/abs/2506.07140v1
- Date: Sun, 08 Jun 2025 13:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.687859
- Title: Quantile-Optimal Policy Learning under Unmeasured Confounding
- Title(参考訳): 非計測コンバウンディングによる量子最適政策学習
- Authors: Zhongren Chen, Siyu Chen, Zhengling Qi, Xiaohong Chen, Zhuoran Yang,
- Abstract要約: ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
- 参考スコア(独自算出の注目度): 55.72891849926314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study quantile-optimal policy learning where the goal is to find a policy whose reward distribution has the largest $\alpha$-quantile for some $\alpha \in (0, 1)$. We focus on the offline setting whose generating process involves unobserved confounders. Such a problem suffers from three main challenges: (i) nonlinearity of the quantile objective as a functional of the reward distribution, (ii) unobserved confounding issue, and (iii) insufficient coverage of the offline dataset. To address these challenges, we propose a suite of causal-assisted policy learning methods that provably enjoy strong theoretical guarantees under mild conditions. In particular, to address (i) and (ii), using causal inference tools such as instrumental variables and negative controls, we propose to estimate the quantile objectives by solving nonlinear functional integral equations. Then we adopt a minimax estimation approach with nonparametric models to solve these integral equations, and propose to construct conservative policy estimates that address (iii). The final policy is the one that maximizes these pessimistic estimates. In addition, we propose a novel regularized policy learning method that is more amenable to computation. Finally, we prove that the policies learned by these methods are $\tilde{\mathscr{O}}(n^{-1/2})$ quantile-optimal under a mild coverage assumption on the offline dataset. Here, $\tilde{\mathscr{O}}(\cdot)$ omits poly-logarithmic factors. To the best of our knowledge, we propose the first sample-efficient policy learning algorithms for estimating the quantile-optimal policy when there exist unmeasured confounding.
- Abstract(参考訳): そこでは、報酬分布が最大$\alpha$-quantileを持つポリシーを、ある$\alpha \in (0, 1)$に対して見つけることを目的とする。
生成プロセスにオブザーブドな共同設立者が関与するオフライン設定に重点を置いています。
このような問題は3つの大きな課題に悩まされる。
一 報酬分布の関数としての量的対象の非線形性
(二)未確認の共起問題、及び
(iii)オフラインデータセットのカバレッジが不十分である。
これらの課題に対処するため,軽度条件下での強力な理論的保証を確実に享受する因果支援政策学習手法を提案する。
特に敬意を表して
(i)および
(II) 楽器変数や負の制御などの因果推論ツールを用いて, 非線形関数積分方程式を解くことにより, 定量化の目的を推定する。
そして、これらの積分方程式を解くために、非パラメトリックモデルを用いたミニマックス推定手法を採用し、それに対処する保守的な政策推定を構築することを提案する。
(三)
最終方針は、これらの悲観的な見積もりを最大化するものである。
さらに,より計算に適した規則化政策学習手法を提案する。
最後に、これらの手法によって得られたポリシーは、オフラインデータセットの軽度カバレッジ仮定の下で、$\tilde{\mathscr{O}}(n^{-1/2})$ Quantile-optimalであることが証明された。
ここで、$\tilde{\mathscr{O}}(\cdot)$ 多対数因子を省略する。
そこで本研究では,不測な共起点が存在する場合の量子最適ポリシを推定するための,最初のサンプル効率のよいポリシー学習アルゴリズムを提案する。
関連論文リスト
- Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。