論文の概要: Offline Policy Learning with Weight Clipping and Heaviside Composite Optimization
- arxiv url: http://arxiv.org/abs/2601.12117v1
- Date: Sat, 17 Jan 2026 17:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.468865
- Title: Offline Policy Learning with Weight Clipping and Heaviside Composite Optimization
- Title(参考訳): 重み付き・重み付き複合最適化によるオフライン政策学習
- Authors: Jingren Liu, Hanzhang Qin, Junyi Liu, Mabel C. Chou, Jong-Shi Pang,
- Abstract要約: オフラインポリシー学習は、歴史的データを使用して、最適なパーソナライズされた決定ルールを学ぶことを目的としています。
そこで我々は,小確率のスコアをトラストするウェイトクリッピング推定器に基づくオフラインポリシー学習アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 6.133885868970599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline policy learning aims to use historical data to learn an optimal personalized decision rule. In the standard estimate-then-optimize framework, reweighting-based methods (e.g., inverse propensity weighting or doubly robust estimators) are widely used to produce unbiased estimates of policy values. However, when the propensity scores of some treatments are small, these reweighting-based methods suffer from high variance in policy value estimation, which may mislead the downstream policy optimization and yield a learned policy with inferior value. In this paper, we systematically develop an offline policy learning algorithm based on a weight-clipping estimator that truncates small propensity scores via a clipping threshold chosen to minimize the mean squared error (MSE) in policy value estimation. Focusing on linear policies, we address the bilevel and discontinuous objective induced by weight-clipping-based policy optimization by reformulating the problem as a Heaviside composite optimization problem, which provides a rigorous computational framework. The reformulated policy optimization problem is then solved efficiently using the progressive integer programming method, making practical policy learning tractable. We establish an upper bound for the suboptimality of the proposed algorithm, which reveals how the reduction in MSE of policy value estimation, enabled by our proposed weight-clipping estimator, leads to improved policy learning performance.
- Abstract(参考訳): オフラインポリシー学習は、歴史的データを使用して最適なパーソナライズされた決定ルールを学ぶことを目的としている。
標準的な見積もり最適化フレームワークでは、ポリシー値の偏りのない見積もりを生成するために、再重み付けに基づく手法(逆の確率重み付けや二重頑健な推定器など)が広く用いられている。
しかし、一部の治療の妥当性スコアが小さい場合、これらのリウェイトに基づく手法は、政策価値推定のばらつきが高く、下流の政策最適化を誤解させ、学習された政策を劣ったものにする可能性がある。
本稿では,平均二乗誤差 (MSE) を最小化するために選択されたクリッピングしきい値を用いて,小確率スコアをトラストする重み付き推定器に基づくオフラインポリシ学習アルゴリズムを体系的に開発する。
本稿では,重み付けに基づく政策最適化によって引き起こされる二段階的かつ不連続な目的を,より厳密な計算フレームワークを提供するHeaviside複合最適化問題として再検討する。
そして、プログレッシブ整数計画法を用いて、改質されたポリシー最適化問題を効率的に解き、実用的なポリシー学習を抽出できるようにする。
本稿では,提案アルゴリズムの準最適性に対する上限を定め,提案した重み付け推定器によって実現された政策値推定のMSEの低減が,政策学習性能の向上に寄与することを示す。
関連論文リスト
- Beating the Winner's Curse via Inference-Aware Policy Optimization [26.01488014918074]
一般的なアプローチは、機械学習モデルをトレーニングして反現実的な結果を予測し、予測された客観的価値を最適化するポリシーを選択することである。
提案手法は,政策を下流でどのように評価するかを考慮し,政策最適化を改良する,推論対応政策最適化と呼ばれる新しい戦略を提案する。
論文 参考訳(メタデータ) (2025-10-20T23:28:12Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。