論文の概要: Bridging the Gap Between Average and Discounted TD Learning
- arxiv url: http://arxiv.org/abs/2605.02103v1
- Date: Sun, 03 May 2026 23:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.082172
- Title: Bridging the Gap Between Average and Discounted TD Learning
- Title(参考訳): 平均と非カウントTD学習のギャップを埋める
- Authors: Haoxing Tian, Zaiwei Chen, Ioannis Ch. Paschalidis, Alex Olshevsky,
- Abstract要約: 平均回帰設定において,政策評価のために明示的に設計された新しいアルゴリズムを提案する。
提案手法は, 適切に定義されたベルマン方程式の一意解への収束を保証することによって, 従来の限界を克服する。
- 参考スコア(独自算出の注目度): 14.556544278062793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The analysis of Temporal Difference (TD) learning in the average-reward setting faces notable theoretical difficulties because the Bellman operator is not contractive with respect to any norm. This complicates standard analyses of stochastic updates that are effective in discounted settings. Although a considerable body of literature addresses these challenges, existing theoretical approaches come with limitations. We introduce a novel algorithm designed explicitly for policy evaluation in the average-reward setting, utilizing sampling from two Markovian trajectories. Our proposed method overcomes previous limitations by guaranteeing convergence to the unique solution of a properly defined projected Bellman equation. Notably, and in contrast to earlier work, our convergence analysis is uniformly applicable to both linear function approximation and tabular settings and does not involve explicit dimension-dependent terms in its convergence bounds. These results align with what is known to hold in the discounted setting. Furthermore, our algorithm achieves improved dependence on the problem's condition number, reducing the sample complexity from quartic, as in prior literature, to quadratic scaling, and thus matching the efficiency seen in the discounted setting.
- Abstract(参考訳): 平均逆設定における時間差(TD)学習の分析は、ベルマン作用素がノルムに関して収縮的でないため、顕著な理論的困難に直面している。
これにより、ディスカウント設定に有効な確率的更新の標準解析が複雑になる。
多くの文献がこれらの課題に対処しているが、既存の理論的なアプローチには限界がある。
本稿では,2つのマルコフ軌道からのサンプリングを利用して,平均回帰設定におけるポリシー評価を明示的に設計した新しいアルゴリズムを提案する。
提案手法は, 適切に定義されたベルマン方程式の特異解への収束を保証することによって, 従来の限界を克服する。
特に、初期の研究とは対照的に、収束解析は線形関数近似と表の設定の両方に一様に適用でき、収束境界に明示的な次元依存項を含まない。
これらの結果は、割引設定で確認されているものと一致します。
さらに,本アルゴリズムは,問題の条件数に対する依存性の向上を実現し,従来の文献のようにサンプルの複雑さを4次スケーリングから2次スケーリングに低減し,割引設定で見られる効率と整合する。
関連論文リスト
- Towards Parameter-Free Temporal Difference Learning [16.4999522739561]
時間差(TD)学習は、強化学習における価値関数を推定するための基本的なアルゴリズムである。
線形関数近似を用いたTDの最近の有限時間解析は、その理論収束率を定量化する。
指数的なステップサイズスケジュールを持つ正規化TD(0)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-03T03:49:19Z) - Bridging Constraints and Stochasticity: A Fully First-Order Method for Stochastic Bilevel Optimization with Linear Constraints [3.567855687957749]
この研究は、一階法のみを用いた線形制約付き双レベル最適化に対する最初の有限時間収束保証を提供する。
線形制約、雑音、有限時間解析を両レベル最適化において同時に扱うという前例のない課題に対処する。
論文 参考訳(メタデータ) (2025-11-13T00:59:20Z) - Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - The Stochastic Proximal Distance Algorithm [5.3315823983402755]
本稿では,所望の制約付き推定問題をペナルティパラメータとして回復する反復最適化手法のクラスを提案し,解析する。
我々は、最近の理論装置を拡張して有限誤差境界を確立し、収束率の完全な評価を行う。
また,本手法が一般的な学習課題のバッチバージョンより優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T22:07:28Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。