論文の概要: A Spectral Revisit of the Distributional Bellman Operator under the Cramér Metric
- arxiv url: http://arxiv.org/abs/2603.12576v1
- Date: Fri, 13 Mar 2026 02:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.848809
- Title: A Spectral Revisit of the Distributional Bellman Operator under the Cramér Metric
- Title(参考訳): クラメル計量下における分布ベルマン演算子のスペクトル再検討
- Authors: Keru Wang, Yixin Deng, Yao Lyu, Stephen Redmond, Shengbo Eben Li,
- Abstract要約: 分布強化学習(DRL)はベルマン更新の下での完全回帰分布の進化を研究する。
古典的な結果は、分布ベルマン作用素がクラメール計量の下で収縮的であることである。
我々は分布ベルマン力学をCDFのレベルで直接解析し、クラメル幾何学を本質的な解析的設定として扱う。
- 参考スコア(独自算出の注目度): 19.762345326138536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional reinforcement learning (DRL) studies the evolution of full return distributions under Bellman updates rather than focusing on expected values. A classical result is that the distributional Bellman operator is contractive under the Cramér metric, which corresponds to an $L^2$ geometry on differences of cumulative distribution functions (CDFs). While this contraction ensures stability of policy evaluation, existing analyses remain largely metric, focusing on contraction properties without elucidating the structural action of the Bellman update on distributions. In this work, we analyse distributional Bellman dynamics directly at the level of CDFs, treating the Cramér geometry as the intrinsic analytical setting. At this level, the Bellman update acts affinely on CDFs and linearly on differences between CDFs, and its contraction property yields a uniform bound on this linear action. Building on this intrinsic formulation, we construct a family of regularised spectral Hilbert representations that realise the CDF-level geometry by exact conjugation, without modifying the underlying Bellman dynamics. The regularisation affects only the geometry and vanishes in the zero-regularisation limit, recovering the native Cramér metric. This framework clarifies the operator structure underlying distributional Bellman updates and provides a foundation for further functional and operator-theoretic analyses in DRL.
- Abstract(参考訳): 分布強化学習(DRL)は、期待値ではなく、ベルマン更新の下でのフルリターン分布の進化を研究する。
古典的な結果として、分布的ベルマン作用素は、累積分布関数(CDFs)の違いに関する$L^2$幾何に対応するクラメール計量の下で収縮的である。
この収縮は、政策評価の安定性を保証するが、既存の分析は、分布に関するベルマン更新の構造的作用を解明することなく、収縮特性に焦点を絞ったままである。
本研究では,分布ベルマン力学をCDFのレベルで直接解析し,クラメール幾何学を本質的な解析環境として扱う。
このレベルでは、ベルマンの更新はCDFに親和的に作用し、CDF間の差に線形に作用し、その収縮特性はこの線形作用に一様結合する。
この本質的な定式化に基づいて、ベルマン力学を変更することなく、正確な共役によりCDFレベルの幾何学を実現する正規化されたスペクトルヒルベルト表現の族を構築する。
正則化は、ゼロ正則化極限における幾何学にのみ影響し、ネイティブなクラメール計量を回復する。
このフレームワークは、分布的ベルマン更新に基づく演算子構造を明らかにし、DRLのさらなる機能的および演算子理論解析の基礎を提供する。
関連論文リスト
- SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Geometric Convergence Analysis of Variational Inference via Bregman Divergences [3.7098038388802252]
Vari rigorous Inference (VI)は、Low Evidence (ELBO)による推論のためのスケーラブルなフレームワークを提供する
指数関数的家族分布を利用して客観収束を解析するための新たな理論的枠組みを確立する。
論文 参考訳(メタデータ) (2025-10-17T11:30:05Z) - Spectral Bellman Method: Unifying Representation and Exploration in RL [54.71169912483302]
この研究は、価値に基づく強化学習のための表現を学習するための新しいフレームワークであるSpectral Bellman Representationを紹介する。
ベルマン力学と特徴共分散を整合させることにより,学習した表現が構造化された探索を可能にすることを示す。
我々のフレームワークは、自然に強力なマルチステップベルマン演算子に拡張され、その影響をさらに拡大します。
論文 参考訳(メタデータ) (2025-07-17T14:50:52Z) - Universal Approximation Theorem for Deep Q-Learning via FBSDE System [2.1756081703276]
本稿では,Deep Q-Networks (DQN) のクラスに対する普遍近似理論を確立する。
関数空間上で作用するニューラル演算子として考えられたディープ残留ネットワークの層がベルマン作用素の作用を近似できることを示す。
論文 参考訳(メタデータ) (2025-05-09T13:11:55Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。