論文の概要: Cross-fitted Proximal Learning for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.05185v1
- Date: Mon, 06 Apr 2026 21:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.50079
- Title: Cross-fitted Proximal Learning for Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習のためのクロスフィット近位学習
- Authors: Nishanth Venkatesh, Andreas A. Malikopoulos,
- Abstract要約: 隠れた境界を持つオフライン環境では、観測データから直接学習されたモデルはバイアスを受けることがある。
近年の研究では, 部分的に観測可能なマルコフ決定過程(POMDPs)における政策評価を, 条件付きモーメント制約(CMRs)を満たす報奨・送達ブリッジ関数の推定に還元できることが示されている。
- 参考スコア(独自算出の注目度): 3.5690236380446163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning is attractive for sequential decision-making because it explicitly estimates reward and transition models and then supports planning through simulated rollouts. In offline settings with hidden confounding, however, models learned directly from observational data may be biased. This challenge is especially pronounced in partially observable systems, where latent factors may jointly affect actions, rewards, and future observations. Recent work has shown that policy evaluation in such confounded partially observable Markov decision processes (POMDPs) can be reduced to estimating reward-emission and observation-transition bridge functions satisfying conditional moment restrictions (CMRs). In this paper, we study the statistical estimation of these bridge functions. We formulate bridge learning as a CMR problem with nuisance objects given by a conditional mean embedding and a conditional density. We then develop a $K$-fold cross-fitted extension of the existing two-stage bridge estimator. The proposed procedure preserves the original bridge-based identification strategy while using the available data more efficiently than a single sample split. We also derive an oracle-comparator bound for the cross-fitted estimator and decompose the resulting error into a Stage I term induced by nuisance estimation and a Stage II term induced by empirical averaging.
- Abstract(参考訳): モデルベースの強化学習は、報酬と移行モデルを明示的に推定し、シミュレートされたロールアウトを通じて計画をサポートするため、シーケンシャルな意思決定にとって魅力的なものだ。
しかし、隠れた境界を持つオフライン環境では、観測データから直接学習されたモデルはバイアスを受ける可能性がある。
この課題は、部分的に観察可能なシステムにおいて特に顕著であり、潜伏因子は行動、報酬、将来の観察に共同で影響を及ぼす可能性がある。
近年の研究では、部分的に観測可能なマルコフ決定過程(POMDPs)における政策評価を、条件付きモーメント制限(CMRs)を満たす報酬推定および観測-遷移ブリッジ関数(英語版)の推定に還元できることが示されている。
本稿では,これらの橋梁関数の統計的推定について検討する。
我々は、条件平均埋め込みと条件密度によって与えられるニュアンスオブジェクトによるCMR問題として橋梁学習を定式化する。
次に,既存の2段式橋梁推定器のクロスフィット拡張を,$K$フォールドで開発する。
提案手法は, 使用可能なデータを単一サンプル分割よりも効率的に使用しながら, 元のブリッジベース識別戦略を保存する。
また,クロスフィット推定器に束縛されたオラクル・コンパレータを導出し,結果の誤差をニュアンス推定によるステージI項と,経験的平均化によるステージII項に分解する。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Transfer Learning of CATE with Kernel Ridge Regression [4.588222946914528]
カーネルリッジ回帰(KRR)を用いた条件平均処理効果(CATE)の重畳適応変換学習法を提案する。
我々は, 弱い重なり合いとCATE関数の複雑さの両方に対する適応性を強調した, 急激な非漸近的MSE境界による手法の理論的正当性を提供する。
論文 参考訳(メタデータ) (2025-02-17T01:07:45Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Flexible Nonparametric Inference for Causal Effects under the Front-Door Model [2.6900047294457683]
本研究では, 平均治療効果, 平均治療効果の両面から, 新規な1段階, 目標最小損失ベース推定装置を開発した。
我々の推定器は観測されたデータ分布のパラメータ化に基づいて構築され、メディエータ密度を完全に回避するアプローチを含む。
因果効果推定器の効率を向上させるためにこれらの制約をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。