論文の概要: Conformal Prediction Beyond the Horizon: Distribution-Free Inference for Policy Evaluation
- arxiv url: http://arxiv.org/abs/2510.26026v1
- Date: Wed, 29 Oct 2025 23:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.607356
- Title: Conformal Prediction Beyond the Horizon: Distribution-Free Inference for Policy Evaluation
- Title(参考訳): 水平を越えた等角予測:政策評価のための分布自由推論
- Authors: Feichen Gan, Youcun Lu, Yingying Zhang, Yukun Liu,
- Abstract要約: 本研究では,無限水平政策評価のための統一型コンフォメーション予測フレームワークを提案する。
本手法は,分布RLと共形キャリブレーション,観測されないリターン,時間依存性,分布シフトといった課題に対処する。
- 参考スコア(独自算出の注目度): 14.811119246685534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable uncertainty quantification is crucial for reinforcement learning (RL) in high-stakes settings. We propose a unified conformal prediction framework for infinite-horizon policy evaluation that constructs distribution-free prediction intervals {for returns} in both on-policy and off-policy settings. Our method integrates distributional RL with conformal calibration, addressing challenges such as unobserved returns, temporal dependencies, and distributional shifts. We propose a modular pseudo-return construction based on truncated rollouts and a time-aware calibration strategy using experience replay and weighted subsampling. These innovations mitigate model bias and restore approximate exchangeability, enabling uncertainty quantification even under policy shifts. Our theoretical analysis provides coverage guarantees that account for model misspecification and importance weight estimation. Empirical results, including experiments in synthetic and benchmark environments like Mountain Car, show that our method significantly improves coverage and reliability over standard distributional RL baselines.
- Abstract(参考訳): 信頼性の高い不確実性定量化は、高い評価条件下での強化学習(RL)に不可欠である。
本研究では,非分布予測区間 {for return} を構成する無限水平政策評価のための統一型コンフォメーション予測フレームワークを提案する。
本手法は,分布RLと共形キャリブレーション,観測されないリターン,時間依存性,分布シフトといった課題に対処する。
本稿では,切り抜きロールアウトに基づくモジュール型擬似リターン構成と,経験リプレイと重み付きサブサンプリングを用いた時間認識キャリブレーション戦略を提案する。
これらの革新はモデルバイアスを緩和し、近似交換可能性の回復を可能にし、政策シフトの下でも不確実な定量化を可能にする。
我々の理論的分析は、モデルの誤特定と重み推定を考慮に入れたカバレッジを保証する。
マウンテンカーのような合成およびベンチマーク環境での実験を含む実験結果から,本手法は標準分布RLベースラインよりもカバー範囲と信頼性を著しく向上することが示された。
関連論文リスト
- Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。
本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文 参考訳(メタデータ) (2025-02-22T19:54:14Z) - Calibrated Probabilistic Forecasts for Arbitrary Sequences [58.54729945445505]
実際のデータストリームは、分散シフトやフィードバックループ、敵アクターによって予測不可能に変化する可能性がある。
データがどのように進化するかに関わらず、有効な不確実性推定を保証するための予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T21:46:42Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。