論文の概要: A Finite-Iteration Theory for Asynchronous Categorical Distributional Temporal-Difference Learning
- arxiv url: http://arxiv.org/abs/2605.06866v1
- Date: Thu, 07 May 2026 19:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.569388
- Title: A Finite-Iteration Theory for Asynchronous Categorical Distributional Temporal-Difference Learning
- Title(参考訳): 非同期カテゴリー分布時間差学習のための有限イテレーション理論
- Authors: Ege C. Kaya, Abolfazl Hashemi,
- Abstract要約: 有限イテレーション理論とカテゴリー再帰のギャップを、実用的な分布時間差実装と最も密接に一致させる。
適切な埋め込みの後、両方のアルゴリズムは、状態ワイドの上限で収縮する非同期の単一状態近似の形式を取る。
これにより、i.d.状態サンプリングとMarkovian状態サンプリングの両方の下での割引問題と、i.d.エピソードサンプリングの下での未計算の固定水平問題において有限イテレーションが保証される。
- 参考スコア(独自算出の注目度): 9.562123195246393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent non-asymptotic analyses have substantially advanced the theory of distributional policy evaluation, but they largely concern synchronous full-state updates under a generative model, model-based estimators, accelerated variants, or different approximation architectures. Standard categorical temporal-difference learning is typically used in a different regime. It asynchronously performs a single-state update at each iteration and, in online settings, is driven by a Markovian trajectory. This leaves an important gap between existing finite-iteration theory and the categorical recursions most closely aligned with practical distributional temporal-difference implementations. We bridge this gap for two categorical policy-evaluation methods: scalar categorical temporal-difference learning in the Cramér geometry and multivariate signed-categorical temporal-difference learning in the maximum mean discrepancy geometry. After suitable isometric embeddings, both algorithms take the form of asynchronous single-state stochastic-approximation recursions that contract in a statewise supremum norm. This permits finite-iteration guarantees in discounted problems under both i.i.d. and Markovian state sampling, and in undiscounted fixed-horizon problems under i.i.d. episodic sampling.
- Abstract(参考訳): 最近の非漸近的分析は、分布政策評価の理論を大幅に進歩させたが、それらは主に、生成モデル、モデルベース推定器、加速変量または異なる近似アーキテクチャの下での同期完全状態更新を懸念している。
標準的な分類的時間差学習は、典型的には異なる体制で使用される。
イテレーション毎に単一の状態更新を非同期に実行し、オンライン設定では、Markovianの軌道によって駆動される。
このことは、既存の有限イテレーション理論とカテゴリー的再帰の間に重要なギャップを残し、実際的な分布時間差の実装と最も密接に一致している。
このギャップを、クラメル幾何学におけるスカラーカテゴリーの時間差学習と、最大平均差分法における多変量符号の時間差学習の2つのカテゴリーの政策評価手法に橋渡しする。
適切な等方的埋め込みの後、両方のアルゴリズムは非同期な単一状態確率近似再帰の形式をとる。
これにより、i.d.状態サンプリングとMarkovian状態サンプリングの両方の下での割引問題と、i.d.エピソードサンプリングの下での未計算の固定水平問題において有限イテレーションが保証される。
関連論文リスト
- Bridging the Gap Between Average and Discounted TD Learning [14.556544278062793]
平均回帰設定において,政策評価のために明示的に設計された新しいアルゴリズムを提案する。
提案手法は, 適切に定義されたベルマン方程式の一意解への収束を保証することによって, 従来の限界を克服する。
論文 参考訳(メタデータ) (2026-05-03T23:54:36Z) - Foundations of Diffusion Models in General State Spaces: A Self-Contained Introduction [54.95522167029998]
この記事は、一般状態空間上の拡散に関する自己完結プライマーである。
我々は、その連続時間限界とともに離散時間ビュー(マルコフカーネルを経由し、逆ダイナミクスを学習する)を開発する。
一般的な変量処理は、標準の訓練損失を支えるELBOをもたらす。
論文 参考訳(メタデータ) (2025-12-04T18:55:36Z) - Structural Classification of Locally Stationary Time Series Based on Second-order Characteristics [18.368110934638207]
本稿では,局所定常時系列の2つのクラスを区別する数値的,実用的,理論的に厳密な分類法を提案する。
本手法は,局所定常時系列に対する自己回帰近似に基づいて,アンサンブルアグリゲーションと距離に基づく分類しきい値を組み合わせたものである。
トレーニングサンプルサイズには要件がなく、誤分類エラー率をゼロにすることが示されている。
論文 参考訳(メタデータ) (2025-07-06T04:00:26Z) - Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Simultaneous Inference for Local Structural Parameters with Random Forests [19.014535120129338]
我々は条件モーメント方程式の解に対する同時信頼区間を構築する。
我々は高次元U.S.の濃度と正規近似に関する新しい順序抽出結果を得た。
副産物として、高次元U.S.の濃度と正規近似に関するいくつかの新しい順序抽出結果を得る。
論文 参考訳(メタデータ) (2024-05-13T15:46:11Z) - Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。
整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。
実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T12:29:01Z) - The Connection between Discrete- and Continuous-Time Descriptions of
Gaussian Continuous Processes [60.35125735474386]
我々は、一貫した推定子をもたらす離散化が粗粒化下での不変性を持つことを示す。
この結果は、導関数再構成のための微分スキームと局所時間推論アプローチの組み合わせが、2次または高次微分方程式の時系列解析に役立たない理由を説明する。
論文 参考訳(メタデータ) (2021-01-16T17:11:02Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。