論文の概要: Fitted Q Evaluation Without Bellman Completeness via Stationary Weighting
- arxiv url: http://arxiv.org/abs/2512.23805v1
- Date: Mon, 29 Dec 2025 19:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.177418
- Title: Fitted Q Evaluation Without Bellman Completeness via Stationary Weighting
- Title(参考訳): 固定重み付けによるベルマン完全性のない適合Q評価
- Authors: Lars van der Laan, Nathan Kallus,
- Abstract要約: この仮定の必要性は、基本的な標準ミスマッチに由来する。
定常密度比の推定値を用いて各回帰ステップを再重み付けする。
これにより、実現可能性やベルマン完全性の欠如を強く評価できる。
- 参考スコア(独自算出の注目度): 40.322273308230606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fitted Q-evaluation (FQE) is a central method for off-policy evaluation in reinforcement learning, but it generally requires Bellman completeness: that the hypothesis class is closed under the evaluation Bellman operator. This requirement is challenging because enlarging the hypothesis class can worsen completeness. We show that the need for this assumption stems from a fundamental norm mismatch: the Bellman operator is gamma-contractive under the stationary distribution of the target policy, whereas FQE minimizes Bellman error under the behavior distribution. We propose a simple fix: reweight each regression step using an estimate of the stationary density ratio, thereby aligning FQE with the norm in which the Bellman operator contracts. This enables strong evaluation guarantees in the absence of realizability or Bellman completeness, avoiding the geometric error blow-up of standard FQE in this setting while maintaining the practicality of regression-based evaluation.
- Abstract(参考訳): FQE (Fitted Q-evaluation) は強化学習における非政治的評価の中心的手法であるが、一般的にはベルマン完全性を必要とする。
仮説クラスを拡大することは完全性を悪化させるので、この要件は難しい。
ベルマン作用素は、目標ポリシーの定常分布の下ではガンマ収縮的であり、FQEは行動分布下ではベルマン誤差を最小化する。
固定密度比の推定値を用いて各回帰ステップを再重み付けすることで、FQEをベルマン作用素が契約するノルムと整合させる。
これにより、レグレッションベース評価の実用性を維持しつつ、標準FQEの幾何学的誤差の爆破を回避することにより、実現可能性やベルマン完全性の欠如を強く評価できる。
関連論文リスト
- Stationary Reweighting Yields Local Convergence of Soft Fitted Q-Iteration [40.322273308230606]
そこで本研究では, 関数近似および分布シフトの下で, 適合Q-定数とそのエントロピー規則化された変種であるソフトFQIが不適切に振る舞うことを示す。
本稿では,現在の方針の定常分布を用いて,各回帰更新を重み付けする静止重み付きソフトFQIを紹介する。
解析の結果,ソフトマックス温度を徐々に下げることで,地球規模の収束が回復する可能性が示唆された。
論文 参考訳(メタデータ) (2025-12-30T00:58:35Z) - Bellman Calibration for V-Learning in Offline Reinforcement Learning [40.322273308230606]
本稿では, 簡易かつモデルに依存しないポストホック法であるイテレーテッドベルマンを導入する。
古典的ヒストグラムとアイソトニックキャリブレーションを動的, 反実的設定に適応させる。
これにより、任意の値推定器に適用可能な1次元の適合値スキームが得られる。
論文 参考訳(メタデータ) (2025-12-29T18:52:18Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - To bootstrap or to rollout? An optimal and adaptive interpolation [4.755935781862859]
本稿では,ブートストラップ法とロールアウト法を補間するベルマン演算子のクラスを紹介する。
我々の推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-11-14T19:00:00Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - When is Realizability Sufficient for Off-Policy Reinforcement Learning? [17.317841035807696]
我々は,所定の機能クラスに対してのみ実現可能性を持つ場合,非政治強化学習の統計的複雑さを分析する。
ベルマン誤差と呼ばれる近似誤差項を含まない非政治強化学習の有限サンプル保証を確立する。
論文 参考訳(メタデータ) (2022-11-10T03:15:31Z) - Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement
for Value Error [83.10489974736404]
本研究では,ベルマン方程式を値予測精度の代用目的として用いることを検討した。
ベルマン誤差は値関数の精度の指標として不十分であることがわかった。
論文 参考訳(メタデータ) (2022-01-28T21:03:59Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。