論文の概要: Versions of Gradient Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2109.04033v1
- Date: Thu, 9 Sep 2021 04:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:09:33.332267
- Title: Versions of Gradient Temporal Difference Learning
- Title(参考訳): 段階的時間差学習のバージョン
- Authors: Donghwan Lee, Han-Dong Lim, Jihoon Park, and Okyong Choi
- Abstract要約: Sutton、Szepesv'ari、Maeiは、線形関数近似と非政治トレーニングの両方に適合する最初の勾配時間差学習アルゴリズムを導入した。
本稿では,GTDの広範な比較分析と,GTDの新たな理論的分析フレームワークの構築を目的とした,GTDの変種について述べる。
- 参考スコア(独自算出の注目度): 5.564793925574796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sutton, Szepesv\'{a}ri and Maei introduced the first gradient
temporal-difference (GTD) learning algorithms compatible with both linear
function approximation and off-policy training. The goal of this paper is (a)
to propose some variants of GTDs with extensive comparative analysis and (b) to
establish new theoretical analysis frameworks for the GTDs. These variants are
based on convex-concave saddle-point interpretations of GTDs, which effectively
unify all the GTDs into a single framework, and provide simple stability
analysis based on recent results on primal-dual gradient dynamics. Finally,
numerical comparative analysis is given to evaluate these approaches.
- Abstract(参考訳): Sutton, Szepesv\'{a}ri, Maei両氏は、線形関数近似と非政治トレーニングの両方に適合する最初の勾配時間差学習アルゴリズムを導入した。
本論文の目的は,(a)GTDの広範な比較分析と,(b)GTDの新たな理論的分析フレームワークを構築することにある。
これらの変種は、全GTDを単一のフレームワークに効果的に統一するGTDの凸凹サドルポイント解釈に基づいており、原始双対勾配力学の最近の結果に基づく単純な安定性解析を提供する。
最後に、これらのアプローチを評価するために数値比較分析を行う。
関連論文リスト
- Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm [56.06235614890066]
勾配降下(GD)と勾配降下(SGD)は多くのアプリケーションドメインで広く使われている。
本稿では, 勾配流の異なる段階における終端アトラクタに基づくGDのダイナミクスを慎重に解析する。
論文 参考訳(メタデータ) (2024-09-10T14:15:56Z) - Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Gradient Descent Temporal Difference-difference Learning [0.0]
GTDアルゴリズムであるGTD2を改善するために、降下時間差分差分法(グラディエントDD)学習を提案する。
本研究では,ランダムウォークタスク,ボイアンチェインタスク,ベアードのオフ・ポリチック・カウンターアンプを実証的に検討した。
論文 参考訳(メタデータ) (2022-09-10T08:55:20Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - A Unified Analysis of Stochastic Gradient Methods for Nonconvex
Federated Optimization [16.714109768541785]
非非状態におけるSGD不変量を満たすすべての方法について単一の解析を行う。
また、PL条件下での非非状態におけるより高速な線形収束を得るための統一解析も提供する。
論文 参考訳(メタデータ) (2020-06-12T08:58:03Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Finite-Sample Analysis of Proximal Gradient TD Algorithms [43.035055641190105]
アルゴリズムの勾配時間差分学習(GTD)ファミリーの収束速度を解析する。
また、GTD2とGTD2-MPという2つの修正アルゴリズムも提案されている。
理論解析の結果,GTDファミリーのアルゴリズムは,非政治的な学習シナリオにおける既存のLSTD手法と同等であることがわかった。
論文 参考訳(メタデータ) (2020-06-06T20:16:25Z) - Finite-sample Analysis of Greedy-GQ with Linear Function Approximation
under Markovian Noise [23.62008807533706]
本稿では,Greedy-GQアルゴリズムの最初の有限サンプル解析法を提案する。
本稿では,2つの時間スケール強化学習アルゴリズムの有限サンプル解析を拡張した。
論文 参考訳(メタデータ) (2020-05-20T16:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。