論文の概要: Provable Offline Reinforcement Learning for Structured Cyclic MDPs
- arxiv url: http://arxiv.org/abs/2602.11679v1
- Date: Thu, 12 Feb 2026 07:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.707236
- Title: Provable Offline Reinforcement Learning for Structured Cyclic MDPs
- Title(参考訳): 構造化周期型MDPの確率的オフライン強化学習
- Authors: Kyungbok Lee, Angelica Cristello Sarteau, Michael R. Kosorok,
- Abstract要約: 多段階決定問題に対する新しい循環マルコフ決定プロセス(MDP)フレームワークを提案する。
我々はこの原理を、理論解析と解釈を可能にする適合Qイテレーションの拡張であるCycleFQIとしてインスタンス化する。
シミュレーションおよび実世界の1型糖尿病データセットの実験は、CycleFQIの有効性を示す。
- 参考スコア(独自算出の注目度): 4.217526873611589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel cyclic Markov decision process (MDP) framework for multi-step decision problems with heterogeneous stage-specific dynamics, transitions, and discount factors across the cycle. In this setting, offline learning is challenging: optimizing a policy at any stage shifts the state distributions of subsequent stages, propagating mismatch across the cycle. To address this, we propose a modular structural framework that decomposes the cyclic process into stage-wise sub-problems. While generally applicable, we instantiate this principle as CycleFQI, an extension of fitted Q-iteration enabling theoretical analysis and interpretation. It uses a vector of stage-specific Q-functions, tailored to each stage, to capture within-stage sequences and transitions between stages. This modular design enables partial control, allowing some stages to be optimized while others follow predefined policies. We establish finite-sample suboptimality error bounds and derive global convergence rates under Besov regularity, demonstrating that CycleFQI mitigates the curse of dimensionality compared to monolithic baselines. Additionally, we propose a sieve-based method for asymptotic inference of optimal policy values under a margin condition. Experiments on simulated and real-world Type 1 Diabetes data sets demonstrate CycleFQI's effectiveness.
- Abstract(参考訳): 循環型マルコフ決定プロセス (MDP) フレームワークを導入し, サイクル全体にわたる異種ステージ固有力学, 遷移, 割引係数を用いた多段階決定問題を提案する。
この設定では、オフライン学習は難しい。任意の段階でポリシーを最適化することは、その後のステージの状態分布をシフトさせ、サイクル全体にわたってミスマッチを伝播させる。
これを解決するために,循環過程を段階的にサブプロブレムに分解するモジュラー構造フレームワークを提案する。
一般に応用されるが、この原理を理論解析と解釈を可能にする適合Q-イテレーションの拡張であるCycleFQIとしてインスタンス化する。
ステージごとに調整された、ステージ固有のQ-関数のベクトルを使用して、ステージ内のシーケンスとステージ間の遷移をキャプチャする。
このモジュール設計は部分的な制御を可能にし、いくつかのステージを最適化し、他のステージは事前に定義されたポリシーに従うことができる。
有限サンプル準最適誤差境界を確立し、ベソフ正則の下で大域収束率を導出し、CycleFQIがモノリシックベースラインと比較して次元の呪いを緩和することを示した。
さらに,マージン条件下での最適政策値の漸近的推定法を提案する。
シミュレーションおよび実世界の1型糖尿病データセットの実験は、CycleFQIの有効性を示す。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。
我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。
原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文 参考訳(メタデータ) (2025-09-16T17:24:35Z) - A Cycle-Consistency Constrained Framework for Dynamic Solution Space Reduction in Noninjective Regression [4.04042026249306]
本稿では,サイクル一貫性に基づくデータ駆動トレーニングフレームワークを提案する。
正規化合成およびシミュレーションデータセットの実験により,提案手法が0.003未満のサイクル再構成誤差を達成することを示した。
このフレームワークは手動による介入への依存を著しく減らし、非インジェクティブ回帰タスクの潜在的な利点を示す。
論文 参考訳(メタデータ) (2025-07-07T04:28:01Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。