論文の概要: Bellman Calibration for V-Learning in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.23694v1
- Date: Mon, 29 Dec 2025 18:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.619933
- Title: Bellman Calibration for V-Learning in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるVラーニングのためのベルマン校正
- Authors: Lars van der Laan, Nathan Kallus,
- Abstract要約: 本稿では, 簡易かつモデルに依存しないポストホック法であるイテレーテッドベルマンを導入する。
古典的ヒストグラムとアイソトニックキャリブレーションを動的, 反実的設定に適応させる。
これにより、任意の値推定器に適用可能な1次元の適合値スキームが得られる。
- 参考スコア(独自算出の注目度): 40.322273308230606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Iterated Bellman Calibration, a simple, model-agnostic, post-hoc procedure for calibrating off-policy value predictions in infinite-horizon Markov decision processes. Bellman calibration requires that states with similar predicted long-term returns exhibit one-step returns consistent with the Bellman equation under the target policy. We adapt classical histogram and isotonic calibration to the dynamic, counterfactual setting by repeatedly regressing fitted Bellman targets onto a model's predictions, using a doubly robust pseudo-outcome to handle off-policy data. This yields a one-dimensional fitted value iteration scheme that can be applied to any value estimator. Our analysis provides finite-sample guarantees for both calibration and prediction under weak assumptions, and critically, without requiring Bellman completeness or realizability.
- Abstract(参考訳): 無限水平マルコフ決定過程における非政治的価値予測を校正するための,単純でモデルに依存しないポストホック手順であるイテレーテッドベルマン校正を導入する。
ベルマンキャリブレーションは、同様の予測された長期リターンを持つ状態は、目標ポリシーの下でベルマン方程式と整合した1段階のリターンを示すことを要求する。
我々は,古典的ヒストグラムと等方的キャリブレーションを,適合したベルマン目標を2倍頑健な擬似アウトカムを用いてモデル予測に繰り返し回帰することで,動的で反現実的な設定に適応する。
これにより、任意の値推定器に適用可能な1次元の値反復スキームが得られる。
我々の分析は、弱い仮定の下でのキャリブレーションと予測の両方を有限サンプルで保証し、ベルマン完全性や実現可能性を必要としない。
関連論文リスト
- When Can We Reuse a Calibration Set for Multiple Conformal Predictions? [0.0]
我々は,e-conformal predictionとHoeffdingの不等式が組み合わさって,単一校正集合の繰り返し使用を可能にすることを示す。
我々は、ディープニューラルネットワークをトレーニングし、キャリブレーションセットを使用して、Hoeffdingの補正を推定する。
この補正により、修正マルコフの不等式を適用することができ、定量化された信頼度を持つ予測セットを構築することができる。
論文 参考訳(メタデータ) (2025-06-24T14:57:25Z) - HopCast: Calibration of Autoregressive Dynamics Models [0.0]
この研究は、モダンホップフィールドネットワーク(MHN)を用いて決定論的予測子の誤りを学習するホップ(hop)と呼ばれる代替のPredictor-Correctorアプローチを導入する。
Correctorは、自動回帰中の任意の時点のコンテキスト状態に基づいて、予測子の出力に対する一連のエラーを予測する。
キャリブレーションと予測性能は一連の力学系で評価される。
論文 参考訳(メタデータ) (2025-01-27T23:59:23Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。