論文の概要: POLAR: A Pessimistic Model-based Policy Learning Algorithm for Dynamic Treatment Regimes
- arxiv url: http://arxiv.org/abs/2506.20406v1
- Date: Wed, 25 Jun 2025 13:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.747399
- Title: POLAR: A Pessimistic Model-based Policy Learning Algorithm for Dynamic Treatment Regimes
- Title(参考訳): POLAR:動的処理レジームのための悲観的モデルに基づくポリシー学習アルゴリズム
- Authors: Ruijia Zhang, Zhengling Qi, Yue Wu, Xiangyu Zhang, Yanxun Xu,
- Abstract要約: オフライン動的処理システム(DTR)のための悲観的モデルに基づくポリシー学習アルゴリズムであるPOLARを提案する。
POLARは、オフラインデータから遷移ダイナミクスを推定し、各ヒストリアクションペアに対する不確実性を定量化する。
平均的なトレーニングパフォーマンスに重点を置く既存の多くの方法とは異なり、POLARは最終学習ポリシーの最適度を直接ターゲットとし、理論的な保証を提供する。
合成データとMIMIC-IIIデータセットの両方の実験結果から、POLARは最先端の手法より優れており、ほぼ最適、歴史に配慮した治療戦略が得られている。
- 参考スコア(独自算出の注目度): 15.681058679765277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic treatment regimes (DTRs) provide a principled framework for optimizing sequential decision-making in domains where decisions must adapt over time in response to individual trajectories, such as healthcare, education, and digital interventions. However, existing statistical methods often rely on strong positivity assumptions and lack robustness under partial data coverage, while offline reinforcement learning approaches typically focus on average training performance, lack statistical guarantees, and require solving complex optimization problems. To address these challenges, we propose POLAR, a novel pessimistic model-based policy learning algorithm for offline DTR optimization. POLAR estimates the transition dynamics from offline data and quantifies uncertainty for each history-action pair. A pessimistic penalty is then incorporated into the reward function to discourage actions with high uncertainty. Unlike many existing methods that focus on average training performance, POLAR directly targets the suboptimality of the final learned policy and offers theoretical guarantees, without relying on computationally intensive minimax or constrained optimization procedures. To the best of our knowledge, POLAR is the first model-based DTR method to provide both statistical and computational guarantees, including finite-sample bounds on policy suboptimality. Empirical results on both synthetic data and the MIMIC-III dataset demonstrate that POLAR outperforms state-of-the-art methods and yields near-optimal, history-aware treatment strategies.
- Abstract(参考訳): 動的治療体制(DTR)は、医療、教育、デジタル介入などの個々のトラジェクトリに応答して、意思決定が時間とともに適応しなければならない領域において、シーケンシャルな意思決定を最適化するための原則化された枠組みを提供する。
しかし、既存の統計手法は強い肯定的な仮定に頼り、部分的なデータカバレッジでは堅牢性に欠けるが、オフライン強化学習のアプローチは一般に平均的なトレーニング性能に焦点を合わせ、統計的保証が欠如し、複雑な最適化問題を解く必要がある。
これらの課題に対処するために、オフラインDTR最適化のための新しい悲観的モデルベースポリシー学習アルゴリズムであるPOLARを提案する。
POLARは、オフラインデータから遷移ダイナミクスを推定し、各ヒストリアクションペアに対する不確実性を定量化する。
悲観的なペナルティは報酬関数に組み込まれ、高い不確実性を伴う行動を妨げる。
平均訓練性能に重点を置く多くの既存の方法とは異なり、POLARは、計算集約的なミニマックスや制約付き最適化手順に頼ることなく、最終学習ポリシーの最適度を直接ターゲットとし、理論的な保証を提供する。
我々の知る限り、POLARは、政策準最適性に関する有限サンプル境界を含む統計的および計算的保証を提供する最初のモデルベースのDTR手法である。
合成データとMIMIC-IIIデータセットの両方の実験結果から、POLARは最先端の手法より優れており、ほぼ最適、歴史に配慮した治療戦略が得られている。
関連論文リスト
- Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data [3.6714630660726586]
オフライン強化学習(RL)は,事前収集したデータを活用することで,期待される全報酬を最大化するために,動的環境における最適ポリシーを見つけることを目的としている。
従来の手法では、単一のエピソードや均質なバッチエピソードから事前に収集されたデータを持つすべての個人に対して最適なポリシーを学ぶことに重点を置いている。
異種時間定常マルコフ決定プロセスのための個別化オフラインポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T15:44:10Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。