論文の概要: TD Convergence: An Optimization Perspective
- arxiv url: http://arxiv.org/abs/2306.17750v2
- Date: Wed, 8 Nov 2023 21:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:14:10.008622
- Title: TD Convergence: An Optimization Perspective
- Title(参考訳): TD Convergence: 最適化の観点から
- Authors: Kavosh Asadi, Shoham Sabach, Yao Liu, Omer Gottesman, Rasool Fakoor
- Abstract要約: 本稿では,TD学習アルゴリズムの収束挙動について検討する。
この結果から, 強化学習におけるTDの有効利用の理論的説明が得られた。
- 参考スコア(独自算出の注目度): 16.12613645083317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the convergence behavior of the celebrated temporal-difference (TD)
learning algorithm. By looking at the algorithm through the lens of
optimization, we first argue that TD can be viewed as an iterative optimization
algorithm where the function to be minimized changes per iteration. By
carefully investigating the divergence displayed by TD on a classical counter
example, we identify two forces that determine the convergent or divergent
behavior of the algorithm. We next formalize our discovery in the linear TD
setting with quadratic loss and prove that convergence of TD hinges on the
interplay between these two forces. We extend this optimization perspective to
prove convergence of TD in a much broader setting than just linear
approximation and squared loss. Our results provide a theoretical explanation
for the successful application of TD in reinforcement learning.
- Abstract(参考訳): 本稿では,TD学習アルゴリズムの収束挙動について検討する。
最適化のレンズを通してアルゴリズムを見ることにより、まず、tdは、最小化された関数が反復毎に変化する反復最適化アルゴリズムと見なすことができる。
古典的反例でtdが示す発散を慎重に調べることにより、アルゴリズムの収束性または発散性を決定する2つの力を特定する。
次に2次損失を伴う線形TD設定での発見を定式化し、TDヒンジの収束がこれら2つの力の間の相互作用に依存することを示す。
この最適化の観点を拡張して、線形近似や二乗損失よりもはるかに広い条件でTDの収束を証明する。
本結果は,強化学習におけるTDの有効利用に関する理論的説明を提供する。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - A Globally Convergent Algorithm for Neural Network Parameter
Optimization Based on Difference-of-Convex Functions [29.58728073957055]
隠れ層ネットワークのパラメータを最適化するアルゴリズムを提案する。
具体的には,ブロックワイズ(DC-of-the-art)差分関数を導出する。
論文 参考訳(メタデータ) (2024-01-15T19:53:35Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Closing the gap between SVRG and TD-SVRG with Gradient Splitting [17.071971639540976]
時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。
最近の研究は、TD学習の解釈を、適切に選択された関数の勾配の分割として利用し、アルゴリズムを簡素化し、SVRGとTDを融合させる。
本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
論文 参考訳(メタデータ) (2022-11-29T14:21:34Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Predictor-Corrector(PC) Temporal Difference(TD) Learning (PCTD) [0.0]
Predictor-Corrector Temporal difference (PCTD) は、私が離散時間 ODE の理論から翻訳時間 Reinforcement (RL) アルゴリズムと呼ぶものです。
私は新しいタイプのtd学習アルゴリズムを提案する。
近似されるパラメータは、ODEに対する解のTaylor Seriesエラーのマグニチュード低減の保証された順序を有する。
論文 参考訳(メタデータ) (2021-04-15T18:54:16Z) - Simple and optimal methods for stochastic variational inequalities, II:
Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。
我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文 参考訳(メタデータ) (2020-11-15T04:05:22Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。