論文の概要: Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2602.16629v1
- Date: Wed, 18 Feb 2026 17:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.664915
- Title: Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes
- Title(参考訳): 平均逆マルコフ決定過程における時間差分学習のほぼ確実な収束性
- Authors: Ethan Blaser, Jiuqi Wang, Shangtong Zhang,
- Abstract要約: 差分時間差(TD)学習アルゴリズムは、平均報酬RLの大きな進歩である。
既存の収束保証は、州訪問数に関連する学習率の局所的な時計を必要とする。
ローカルクロックを使わずに、標準的な減少する学習率を用いて、任意の$n$に対して、オンラインの$n$-step差分TDがほぼ確実に収束していることを証明する。
- 参考スコア(独自算出の注目度): 19.67390261007849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The average reward is a fundamental performance metric in reinforcement learning (RL) focusing on the long-run performance of an agent. Differential temporal difference (TD) learning algorithms are a major advance for average reward RL as they provide an efficient online method to learn the value functions associated with the average reward in both on-policy and off-policy settings. However, existing convergence guarantees require a local clock in learning rates tied to state visit counts, which practitioners do not use and does not extend beyond tabular settings. We address this limitation by proving the almost sure convergence of on-policy $n$-step differential TD for any $n$ using standard diminishing learning rates without a local clock. We then derive three sufficient conditions under which off-policy $n$-step differential TD also converges without a local clock. These results strengthen the theoretical foundations of differential TD and bring its convergence analysis closer to practical implementations.
- Abstract(参考訳): 平均報酬は、エージェントの長期的パフォーマンスに焦点を当てた強化学習(RL)における基本的なパフォーマンス指標である。
差分時間差(TD)学習アルゴリズムは平均報酬RLの大きな進歩であり、オンライン上では、オンラインとオフ政治の両方において平均報酬に関連する価値関数を学習する効率的な方法を提供する。
しかし、既存の収束保証は、国家訪問数に関連付けられた学習率の局所クロックを必要とし、実践者は使用せず、表の設定を超えて拡張しない。
この制限は、ローカルクロックを使わずに、標準的な減少する学習率を用いて、任意の$n$に対して、オンラインの$n$-step差分TDをほぼ確実に収束させることによって解決する。
次に、オフポジーの$n$-step差分TDも局所クロックなしで収束する3つの十分条件を導出する。
これらの結果は微分TDの理論的基礎を強化し、その収束解析を実用的な実装に近づける。
関連論文リスト
- Transitive RL: Value Learning via Divide and Conquer [54.190627631246166]
Transive Reinforcement Learning (TRL) は、分割・分散パラダイムに基づく新しい価値学習アルゴリズムである。
モンテカルロ法とは異なり、TRLは動的プログラミングを実行するため、高分散に苦しむ。
論文 参考訳(メタデータ) (2025-10-26T03:32:31Z) - Finite-Time Bounds for Distributionally Robust TD Learning with Linear Function Approximation [5.638124543342179]
線形関数近似を用いた最初の頑健な時間差学習を提案する。
我々の結果は、ロバストなRLアルゴリズムの実証的な成功と、ロバストでないアルゴリズムが享受する漸近的保証との間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-10-02T07:01:41Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Stabilizing Temporal Difference Learning via Implicit Stochastic Recursion [2.1301560294088318]
時間差学習は強化学習における基礎的アルゴリズムである
本稿では,TD更新を固定点方程式に変換する暗黙的TDアルゴリズムを提案する。
以上の結果から,暗黙的TDアルゴリズムはより広いステップサイズに適用可能であることが示された。
論文 参考訳(メタデータ) (2025-05-02T15:57:54Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - DPO: A Differential and Pointwise Control Approach to Reinforcement Learning [3.2857981869020327]
連続状態行動空間における強化学習(RL)は、科学計算において依然として困難である。
本稿では,連続時間制御の観点からRLを再構成する新しいフレームワークである差分強化学習(Differential RL)を紹介する。
我々は,局所運動演算子を洗練させる段階的アルゴリズムである微分ポリシー最適化(DPO)を開発した。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。
当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文 参考訳(メタデータ) (2021-05-10T06:07:05Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。