論文の概要: Beyond Bellman: High-Order Generator Regression for Continuous-Time Policy Evaluation
- arxiv url: http://arxiv.org/abs/2604.18972v1
- Date: Tue, 21 Apr 2026 01:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.569062
- Title: Beyond Bellman: High-Order Generator Regression for Continuous-Time Policy Evaluation
- Title(参考訳): Beyond Bellman: 継続的ポリシー評価のための高次ジェネレータ回帰
- Authors: Yaowei Zheng, Richong Zhang, Shenxi Wu, Shirui Bian, Haosong Zhang, Li Zeng, Xingjian Ma, Yichi Zhang,
- Abstract要約: 離散閉ループ軌道からの連続時間政策評価を時間的不均一な力学の下で検討する。
我々は,低次乱数項をキャンセルするモーメントマッチング係数を用いて,多段階遷移から時間依存ジェネレータを推定する。
- 参考スコア(独自算出の注目度): 28.490321270040727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study finite-horizon continuous-time policy evaluation from discrete closed-loop trajectories under time-inhomogeneous dynamics. The target value surface solves a backward parabolic equation, but the Bellman baseline obtained from one-step recursion is only first-order in the grid width. We estimate the time-dependent generator from multi-step transitions using moment-matching coefficients that cancel lower-order truncation terms, and combine the resulting surrogate with backward regression. The main theory gives an end-to-end decomposition into generator misspecification, projection error, pooling bias, finite-sample error, and start-up error, together with a decision-frequency regime map explaining when higher-order gains should be visible. Across calibration studies, four-scale benchmarks, feature and start-up ablations, and gain-mismatch stress tests, the second-order estimator consistently improves on the Bellman baseline and remains stable in the regime where the theory predicts visible gains. These results position high-order generator regression as an interpretable continuous-time policy-evaluation method with a clear operating region.
- Abstract(参考訳): 離散閉ループ軌道からの有限水平連続時間政策評価を時間的不均一な力学の下で検討する。
目標値面は逆放物型方程式を解くが、一段階の再帰から得られるベルマン基底線は格子幅の1次のみである。
時間依存ジェネレータを複数ステップ遷移から推定し,低次トランケーション項をキャンセルするモーメントマッチング係数を用いて,サロゲートを後方回帰と組み合わせる。
主理論は、ジェネレータの不特定性、射影誤差、プーリングバイアス、有限サンプル誤差、および起動エラーへのエンドツーエンド分解と、高次ゲインの可視性を説明する決定周波数レジームマップである。
キャリブレーション研究、4スケールのベンチマーク、特徴と起動の短縮、ゲインミスマッチストレステストなどを通じて、2階推定器はベルマン基底線を常に改善し、理論が可視ゲインを予測する体制の中で安定している。
これらの結果は,高次ジェネレータ回帰を明確な動作領域を持つ解釈可能な連続時間ポリシー評価法として位置づける。
関連論文リスト
- Learning to Shuffle: Block Reshuffling and Reversal Schemes for Stochastic Optimization [20.63685754619351]
大規模言語モデル(LLM)誘導プログラム進化フレームワークを用いて,SGDを置き換えることなく,効率的なシャッフルルールを発見する。
ブロックリシャッフルは, 統一シャッフルにおけるプレフィックス-勾配変動定数を厳格に低減し, 弱条件下でのランダムリシャッフルよりも良好な改善をもたらすことを示す。
また、ペア逆転がエポックマップを対称性付け、先行する順序依存の2次項をキャンセルし、ステップサイズにおいて2次から3次への順序感度を低下させることを示した。
論文 参考訳(メタデータ) (2026-03-31T21:40:43Z) - Why Self-Training Helps and Hurts: Denoising vs. Signal Forgetting [6.369253528507392]
反復的な自己学習は、自身の予測によって生成された擬似ラベルのモデルに繰り返し適合する。
繰り返しの予測リスクと有効雑音に対する決定論的等価再帰を導出する。
論文 参考訳(メタデータ) (2026-02-15T07:28:12Z) - An Elementary Approach to Scheduling in Generative Diffusion Models [55.171367482496755]
生成拡散モデルにおけるノイズスケジューリングと時間離散化の影響を特徴付けるための基礎的手法を開発した。
異なるデータセットと事前訓練されたモデルにわたる実験により、我々のアプローチによって選択された時間離散化戦略が、ベースラインとサーチベースの戦略を一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-20T05:06:26Z) - Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - Preconditioned Langevin Dynamics with Score-Based Generative Models for Infinite-Dimensional Linear Bayesian Inverse Problems [4.2223436389469144]
スコアベース生成モデル(SGM)によって駆動されるランゲヴィン力学は、関数空間内で直接的に定式化される。
スコアの近似誤差に明示的に依存する誤差推定を初めて導いた。
その結果、基底函数空間上のクルバック・リーブラー発散における大域収束のための十分条件が得られる。
論文 参考訳(メタデータ) (2025-05-23T18:12:04Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Bounding the expected run-time of nonconvex optimization with early
stopping [2.7648976108201815]
本研究は,検証関数に基づく早期停止を用いた勾配に基づく最適化アルゴリズムの収束性について検討する。
我々は、この停止規則が適切に定義されていることを保証する条件を導出し、この基準を満たすのに必要なイテレーション数と勾配評価の期待値のバウンダリを提供する。
論文 参考訳(メタデータ) (2020-02-20T16:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。