Fugu-MT 論文翻訳(概要): Provably Efficient Gauss-Newton Temporal Difference Learning Method with Function Approximation

論文の概要: Provably Efficient Gauss-Newton Temporal Difference Learning Method with Function Approximation

arxiv url: http://arxiv.org/abs/2302.13087v1
Date: Sat, 25 Feb 2023 14:14:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 19:08:41.260684
Title: Provably Efficient Gauss-Newton Temporal Difference Learning Method with Function Approximation
Title（参考訳）: 関数近似を用いた確率効率の良いガウスニュートン時間差分学習法
Authors: Zhifa Ke, Zaiwen Wen, Junyu Zhang
Abstract要約: 関数近似を用いたQ値推定問題の解法としてガウスニュートン時間差分法(GNTD)を提案する。本研究では, 線形, ニューラルネットワーク, 一般スムーズ関数近似の下でのGNTDの有限サンプル非漸近収束を導出した。
参考スコア（独自算出の注目度）: 9.661245904728618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, based on the spirit of Fitted Q-Iteration (FQI), we propose a Gauss-Newton Temporal Difference (GNTD) method to solve the Q-value estimation problem with function approximation. In each iteration, unlike the original FQI that solves a nonlinear least square subproblem to fit the Q-iteration, the GNTD method can be viewed as an \emph{inexact} FQI that takes only one Gauss-Newton step to optimize this subproblem, which is much cheaper in computation. Compared to the popular Temporal Difference (TD) learning, which can be viewed as taking a single gradient descent step to FQI's subproblem per iteration, the Gauss-Newton step of GNTD better retains the structure of FQI and hence leads to better convergence. In our work, we derive the finite-sample non-asymptotic convergence of GNTD under linear, neural network, and general smooth function approximations. In particular, recent works on neural TD only guarantee a suboptimal $\mathcal{\mathcal{O}}(\epsilon^{-4})$ sample complexity, while GNTD obtains an improved complexity of $\tilde{\mathcal{O}}(\epsilon^{-2})$. Finally, we validate our method via extensive experiments in both online and offline RL problems. Our method exhibits both higher rewards and faster convergence than TD-type methods, including DQN.
Abstract（参考訳）: 本稿では,FQI(Fitted Q-Iteration)の精神に基づき,関数近似を用いたQ値推定問題の解法としてガウスニュートン時間差分法(GNTD)を提案する。各イテレーションにおいて、q-イテレーションに適合する非線形最小二乗部分問題を解く元のfqiとは異なり、gntd法は、このサブプロブレムを最適化するのに1つのガウスニュートンステップしかかからない \emph{inexact} fqiと見なすことができる。 GNTDのガウス・ニュートンのステップは、FQIの構造をより良く維持し、結果としてより収束させる。本研究では, 線形, ニューラルネットワーク, 一般スムーズ関数近似の下でGNTDの有限サンプル非漸近収束を導出した。特に、ニューラル TD に関する最近の研究は、サブ最適 $\mathcal{\mathcal{O}}(\epsilon^{-4})$サンプル複雑性しか保証していないが、GNTD は $\tilde{\mathcal{O}}(\epsilon^{-2})$ の改善された複雑性を得る。最後に、オンラインおよびオフラインのrl問題の両方において、広範囲な実験を通して、この手法を検証する。提案手法は,DQNを含むTD型よりも高い報酬と高速収束を示す。

関連論文リスト

Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [4.554284689395686]
2層$textReLU3$ Physics-Informed Neural Networks (PINNs) のトレーニングにおいて、学習率は $mathcalO(lambda_0)$から $mathcalO (1/|bmHinfty|_2)$に改善可能であることを示す。このような改善にもかかわらず、収束速度は依然としてグラム行列の最小固有値と結び付けられ、収束が遅くなる。
論文参考訳（メタデータ） (2024-08-01T14:06:34Z)
MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文参考訳（メタデータ） (2024-05-29T18:36:59Z)
An Improved Finite-time Analysis of Temporal Difference Learning with Deep Neural Networks [11.925232472331494]
一般の$L$層ニューラルネットワークを用いて, ニューラルTD法の非漸近解析を改良した。新しい証明技術が開発され、新しい$tildemathcalO(epsilon-1)$サンプルの複雑さが引き出された。
論文参考訳（メタデータ） (2024-05-07T05:29:55Z)
Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文参考訳（メタデータ） (2024-04-29T15:04:07Z)
Stochastic Optimization for Non-convex Problem with Inexact Hessian Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。 TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文参考訳（メタデータ） (2023-10-18T10:29:58Z)
Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width, Samples, and Time [37.73689342377357]
不自然な変更を伴わないネットワーク上の勾配勾配勾配が、カーネル法よりも優れたサンプリング複雑性を達成できるかどうかは、まだ明らかな問題である。正の学習数を持つ射影勾配降下は同じサンプルで低誤差に収束することを示す。
論文参考訳（メタデータ） (2023-06-28T16:45:38Z)
On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文参考訳（メタデータ） (2023-05-30T17:47:27Z)
Gradient-Free Methods for Deterministic and Stochastic Nonsmooth Nonconvex Optimization [94.19177623349947]
非滑らかな非最適化問題は、機械学習とビジネス製造に現れる。 2つのコア課題は、有限収束を保証する効率的な方法の開発を妨げる。 GFMとSGFMの2相版も提案され, 改良された大規模評価結果が得られた。
論文参考訳（メタデータ） (2022-09-12T06:53:24Z)
Stochastic Zeroth order Descent with Structured Directions [10.604744518360464]
我々は, 有限差分法であるStructured Zeroth Order Descent (SSZD)を導入・解析し, 集合 $lleq d 方向の勾配を近似し, $d は周囲空間の次元である。凸凸に対して、すべての$c1/2$に対して$O( (d/l) k-c1/2$)$ 上の関数の収束はほぼ確実に証明する。
論文参考訳（メタデータ） (2022-06-10T14:00:06Z)
Sample Complexity Bounds for Two Timescale Value-based Reinforcement Learning Algorithms [65.09383385484007]
2つの時間スケール近似(SA)は、値に基づく強化学習アルゴリズムで広く使われている。本稿では,2つの時間スケール線形および非線形TDCとGreedy-GQアルゴリズムの漸近収束率について検討する。
論文参考訳（メタデータ） (2020-11-10T11:36:30Z)
Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文参考訳（メタデータ） (2020-02-10T23:23:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。