論文の概要: Quadratic Gradient: Combining Gradient Algorithms and Newton's Method as
One
- arxiv url: http://arxiv.org/abs/2209.03282v2
- Date: Wed, 29 Mar 2023 12:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 18:53:19.823227
- Title: Quadratic Gradient: Combining Gradient Algorithms and Newton's Method as
One
- Title(参考訳): 2次勾配:勾配アルゴリズムとニュートン法を1つに組み合わせる
- Authors: John Chiang
- Abstract要約: 二次勾配の新しいバージョンを構築するための新しい方法を提案する。
実験により、コンバージェンスレートにおいて、元のものよりもパフォーマンスが良いことが示される。
チアンは、一階勾配降下法におけるヘッセン行列と学習率の関係があるかもしれないと推測している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It might be inadequate for the line search technique for Newton's method to
use only one floating point number. A column vector of the same size as the
gradient might be better than a mere float number to accelerate each of the
gradient elements with different rates. Moreover, a square matrix of the same
order as the Hessian matrix might be helpful to correct the Hessian matrix.
Chiang applied something between a column vector and a square matrix, namely a
diagonal matrix, to accelerate the gradient and further proposed a faster
gradient variant called quadratic gradient. In this paper, we present a new way
to build a new version of the quadratic gradient. This new quadratic gradient
doesn't satisfy the convergence conditions of the fixed Hessian Newton's
method. However, experimental results show that it sometimes has a better
performance than the original one in convergence rate. Also, Chiang speculates
that there might be a relation between the Hessian matrix and the learning rate
for the first-order gradient descent method. We prove that the floating number
$\frac{1}{\epsilon + \max \{| \lambda_i | \}}$ can be a good learning rate of
the gradient methods, where $\epsilon$ is a number to avoid division by zero
and $\lambda_i$ the eigenvalues of the Hessian matrix.
- Abstract(参考訳): ニュートン法が浮動小数点数を1つだけ使うためには、行探索技術に不適当かもしれない。
勾配と同じ大きさの柱ベクトルは、単にフロート数よりも良い場合があり、それぞれの勾配要素を異なる速度で加速することができる。
さらに、ヘッセン行列と同じ順序の正方行列は、ヘッセン行列を修正するのに役立つかもしれない。
チアンは勾配を加速するために柱ベクトルと正方行列、すなわち対角行列の間に何かを適用し、さらに二次勾配と呼ばれるより高速な勾配変種を提案した。
本稿では,2次勾配の新しいバージョンを構築するための新しい方法を提案する。
この新たな二次勾配は、固定ヘッセン・ニュートン法の収束条件を満たすものではない。
しかし, 実験結果から, コンバージェンスレートにおいて, 元のものよりも優れた性能を示した。
また、Chiangは、一階勾配降下法におけるヘッセン行列と学習率の関係があるかもしれないと推測している。
浮動小数点数 $\frac{1}{\epsilon + \max \{| \lambda_i | \}}$ が勾配法のよい学習率であることを証明する。
関連論文リスト
- Gradient Methods with Online Scaling [19.218484733179356]
オンライン学習による勾配に基づく手法の収束を加速する枠組みを提案する。
広範に使用される過勾配降下は勾配降下の収束により改善されることを示す。
論文 参考訳(メタデータ) (2024-11-04T05:04:18Z) - Adapting Newton's Method to Neural Networks through a Summary of
Higher-Order Derivatives [0.0]
関数 $boldsymboltheta$ に適用した勾配に基づく最適化法を考える。
このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。
論文 参考訳(メタデータ) (2023-12-06T20:24:05Z) - Natural Gradient Methods: Perspectives, Efficient-Scalable
Approximations, and Analysis [0.0]
Natural Gradient Descentは、情報幾何学によって動機付けられた2次最適化手法である。
一般的に使用されるヘッセン語の代わりにフィッシャー情報マトリックスを使用している。
2階法であることは、膨大な数のパラメータとデータを扱う問題で直接使用されることが不可能である。
論文 参考訳(メタデータ) (2023-03-06T04:03:56Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Restarted Nonconvex Accelerated Gradient Descent: No More
Polylogarithmic Factor in the $O(\epsilon^{-7/4})$ Complexity [70.65867695317633]
本稿では,2つの単純な加速勾配法,再発進勾配降下法(AGD)と再発進球法(HB)を提案する。
我々は、我々の手法が$frac1epsilon)$の勾配反復数を達成することを確証する。
我々のアルゴリズムは、ネストフの古典的なAGDオークのHBと再起動機構のみからなるという意味では単純である。
論文 参考訳(メタデータ) (2022-01-27T10:04:04Z) - Fast Differentiable Matrix Square Root [65.67315418971688]
微分可能な行列平方根を計算するために、より効率的な2つの変種を提案する。
前方伝播には, Matrix Taylor Polynomial (MTP) を用いる方法がある。
もう1つの方法は Matrix Pad'e Approximants (MPA) を使うことである。
論文 参考訳(メタデータ) (2022-01-21T12:18:06Z) - A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。
主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:19:30Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。