論文の概要: Model-based Bootstrap of Controlled Markov Chains
- arxiv url: http://arxiv.org/abs/2605.12410v1
- Date: Tue, 12 May 2026 17:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.040598
- Title: Model-based Bootstrap of Controlled Markov Chains
- Title(参考訳): 制御マルコフ鎖のモデルベースブートストラップ
- Authors: Ziwei Su, Imon Banerjee, Diego Klabjan,
- Abstract要約: 非定常または履歴に依存しない制御ポリシを持つ有限制御チェーンにおける遷移カーネルのモデルベースブートストラップを解析する。
本研究では, ブートストラップ遷移推定器の分布整合性を確立した。
- 参考スコア(独自算出の注目度): 19.45424164858432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and analyze a model-based bootstrap for transition kernels in finite controlled Markov chains (CMCs) with possibly nonstationary or history-dependent control policies, a setting that arises naturally in offline reinforcement learning (RL) when the behavior policy generating the data is unknown. We establish distributional consistency of the bootstrap transition estimator in both a single long-chain regime and the episodic offline RL regime. The key technical tools are a novel bootstrap law of large numbers (LLN) for the visitation counts and a novel use of the martingale central limit theorem (CLT) for the bootstrap transition increments. We extend bootstrap distributional consistency to the downstream targets of offline policy evaluation (OPE) and optimal policy recovery (OPR) via the delta method by verifying Hadamard differentiability of the Bellman operators, yielding asymptotically valid confidence intervals for value and $Q$-functions. Experiments on the RiverSwim problem show that the proposed bootstrap confidence intervals (CIs), especially the percentile CIs, outperform the episodic bootstrap and plug-in CLT CIs, and are often close to nominal ($50\%$, $90\%$, $95\%$) coverage, while the baselines are poorly calibrated at small sample sizes and short episode lengths.
- Abstract(参考訳): 有限制御マルコフ連鎖(CMC)における遷移カーネルのモデルベースブートストラップを,非定常的あるいは履歴に依存しない制御ポリシを用いて提案する。
本研究では, ブートストラップ遷移推定器の分布整合性を確立した。
鍵となる技術ツールは、訪問数に対する多数のブートストラップ法則(LLN)と、ブートストラップ遷移インクリメントに対するマーチンゲール中央極限定理(CLT)の新たな利用である。
本稿では,Bellman演算子のアダマール微分可能性を検証することにより,オフラインポリシ評価(OPE)と最適ポリシ回復(OPR)の下流ターゲットにブートストラップ分布の整合性を拡張し,値に対する漸近的に有効な信頼区間と$Q$-関数を与える。
RiverSwim問題に関する実験によると、提案されたブートストラップ信頼区間(CI)、特にパーセンタイルCI(CI)は、エピソードブートストラップやプラグインCLTCIよりも優れており、しばしば名目上の$50\%$、$90\%$、9,5\%$)のカバレッジに近づいている。
関連論文リスト
- Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training [50.86545293331458]
強化学習は、教師付き学習よりも構造的に難しい。
本稿では,固定クリッピングを政策比率の正規化された有効サンプルサイズに置き換える,単純かつ効果的なバッチ適応目的を提案する。
論文 参考訳(メタデータ) (2026-05-12T16:44:47Z) - Path-Coupled Bellman Flows for Distributional Reinforcement Learning [6.000836623151053]
Path-Coupled Bellman Flows (PCBF) はフローマッチングを用いて戻り分布を学習する。
PCBFは電流と後継リターンを結合し、共有ベースノイズを流れる。
解析的抽出可能なMPP, OGBench, D4RLの実験では, 分布密度とトレーニング安定性が向上した。
論文 参考訳(メタデータ) (2026-05-07T19:05:01Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Bootstrap Off-policy with World Model [59.129118672069644]
ブートストラップループを通じて計画と非政治学習を緊密に統合するフレームワークであるBOOMを提案する。
BOOMは、トレーニングの安定性と最終的なパフォーマンスの両方において、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-01T06:33:04Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Differentially Private Bootstrap: New Privacy Analysis and Inference Strategies [15.532887012861211]
差分的プライベート(DP)メカニズムは、統計的解析手順においてランダム性によって個人レベルの情報を保護する。
サンプリング分布を推定し、信頼区間(CI)を構築するために、複数のプライベートブートストラップ推定を解放するDPブートストラップ手順を検討する。
我々は、人口平均推定、ロジスティック回帰、量子回帰といったタスクのためのCIを導出し、2016年のカナダ国勢調査データにおけるシミュレーションと実世界の実験を用いて既存の手法と比較した。
論文 参考訳(メタデータ) (2022-10-12T12:48:25Z) - Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。