論文の概要: Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.11289v1
- Date: Mon, 11 May 2026 22:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.453633
- Title: Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning
- Title(参考訳): ベルマン対応型平均逆分布強化学習のための量論的表現法
- Authors: Ege C. Kaya, Aliasghar Pourghani, Vijay Gupta, Abolfazl Hashemi,
- Abstract要約: 本稿では、状態付きバイアス法則を共通翻訳まで特定する商空間定式化を導入する。
同期の正確な更新は、商法レベルでゲイン非依存であることを示す。
- 参考スコア(独自算出の注目度): 8.988097534171995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Average-reward reinforcement learning requires estimating the gain and the bias, which is defined only up to an additive constant. This makes direct distributional analogues ill-posed on the real line. We introduce a quotient-space formulation in which state-indexed bias laws are identified up to a common translation, together with a categorical parameterization that respects this symmetry. On this quotient-categorical space, we define a projected average-reward distributional operator and show that it is well-defined, non-expansive in a coordinate Cramér metric, and admits fixed points. We then study sampled recursions whose mean-field maps are asynchronous relaxations of this operator. In an idealized centered-reward setting, a one-state temporal-difference update enjoys almost sure convergence together with finite-iteration residual bounds under both i.i.d. and Markovian sampling. When the gain is unknown, we augment the recursion with an online gain estimator, and prove non-expansiveness and Markovian convergence of the resulting coupled scheme. Finally, we show that synchronous exact updates are gain-independent at the quotient-law level, isolating a structural contrast between ideal quotient distributions and practical fixed-grid categorical representations.
- Abstract(参考訳): 平均回帰強化学習は、加算定数までしか定義されない利得とバイアスを推定する必要がある。
これにより、直分布の類似は実数直線に悪影響を及ぼす。
この対称性を尊重する分類的パラメータ化とともに、状態付きバイアス法則を共通翻訳まで同定する商空間定式化を導入する。
この商-カテゴリー空間上で、予想された平均逆分布作用素を定義し、座標クラメル計量においてそれが十分に定義され、拡張不能であることを示し、不動点を認める。
次に,この演算子の平均場写像が非同期緩和であるサンプル再帰について検討する。
理想化されたセンタード・リワード設定では、一状態時間差分更新はほとんど確実に収束し、i.d.とマルコフのサンプリングの下で有限イテレーション残差境界を持つ。
ゲインが不明な場合、オンラインゲイン推定器で再帰を拡大し、結果として得られたスキームの非拡張性とマルコフ収束を証明する。
最後に、同期的正確な更新は商法レベルで利得非依存であることを示し、理想的な商分布と実用的な固定格子のカテゴリー表現の間の構造的コントラストを分離する。
関連論文リスト
- A Mathematical Theory of Ranking [0.0]
ランキングシステムはスカラースコアから順序付きリストを生成するが、ランキングそのものはペア比較にのみ依存する。
我々はこの観測を真面目に行う数学的理論を開発し、絶対的なスコアではなく対の辺りの分析を中心とする。
論文 参考訳(メタデータ) (2026-04-09T17:00:49Z) - Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations [49.702772230127465]
有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $mathcalK(P)$ によってキャプチャされ、商空間 $mathbbRn/mathcalK(P) 上の誘導作用素が厳密に収縮し、ユニークな商解が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T02:57:01Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - On the Uniform Convergence of Subdifferentials in Stochastic Optimization and Learning [1.5229257192293195]
実験的リスクから集団リスクへのサブディファレンシャルマッピングの一様収束を非平滑,非評価,決定論的最適化を用いて検討した。
これらの保証は、堅牢な統計と関連する応用に起因する問題の幾何学に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-05-16T17:49:46Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Stochastic Saddle Point Problems with Decision-Dependent Distributions [0.6091702876917279]
本稿では,静的設定と時間変化設定の両方において決定に依存するサドル点問題に焦点をあてる。
定常ミニマックス問題に対するサドル点である平衡点の概念を導入する。
原始双対アルゴリズムは、同様の方法でサドル点に収束することを示す。
論文 参考訳(メタデータ) (2022-01-07T03:36:41Z) - Nonparametric Score Estimators [49.42469547970041]
未知分布によって生成されたサンプルの集合からスコアを推定することは確率モデルの推論と学習における基本的なタスクである。
正規化非パラメトリック回帰の枠組みの下で、これらの推定器の統一的なビューを提供する。
カールフリーカーネルと高速収束による計算効果を享受する反復正規化に基づくスコア推定器を提案する。
論文 参考訳(メタデータ) (2020-05-20T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。