論文の概要: Incremental Gauss-Newton Descent for Machine Learning
- arxiv url: http://arxiv.org/abs/2408.05560v1
- Date: Sat, 10 Aug 2024 13:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:21:45.959193
- Title: Incremental Gauss-Newton Descent for Machine Learning
- Title(参考訳): 機械学習のためのインクリメンタルガウスニュートンDescent
- Authors: Mikalai Korbit, Mario Zanon,
- Abstract要約: 本稿では,ガウス・ニュートン法に基づく近似2次情報を利用したグラディエントDescentアルゴリズムの修正を提案する。
Incrmental Gauss-Newton Descent (IGND)と呼ばれる新しい手法は、基本的に標準SGDと同じ計算負担を持つ。
IGNDは、少なくとも最悪の場合には、SGDと同等以上の性能を保ちながら、SGDを著しく上回る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) is a popular technique used to solve problems arising in machine learning. While very effective, SGD also has some weaknesses and various modifications of the basic algorithm have been proposed in order to at least partially tackle them, mostly yielding accelerated versions of SGD. Filling a gap in the literature, we present a modification of the SGD algorithm exploiting approximate second-order information based on the Gauss-Newton approach. The new method, which we call Incremental Gauss-Newton Descent (IGND), has essentially the same computational burden as standard SGD, appears to converge faster on certain classes of problems, and can also be accelerated. The key intuition making it possible to implement IGND efficiently is that, in the incremental case, approximate second-order information can be condensed into a scalar value that acts as a scaling constant of the update. We derive IGND starting from the theory supporting Gauss-Newton methods in a general setting and then explain how IGND can also be interpreted as a well-scaled version of SGD, which makes tuning the algorithm simpler, and provides increased robustness. Finally, we show how IGND can be used in practice by solving supervised learning tasks as well as reinforcement learning problems. The simulations show that IGND can significantly outperform SGD while performing at least as well as SGD in the worst case.
- Abstract(参考訳): Stochastic Gradient Descent(SGD)は、機械学習で発生する問題を解決するために使われる一般的なテクニックである。
非常に効果的ではあるが、SGDにはいくつかの弱点があり、少なくとも部分的に対処するために基本アルゴリズムの様々な修正が提案されている。
論文のギャップを埋めるため,ガウス・ニュートン法に基づく近似二階情報を利用したSGDアルゴリズムの修正を提案する。
Incrmental Gauss-Newton Descent (IGND)と呼ばれる新しい手法は、基本的に標準SGDと同じ計算負担を持ち、ある種の問題に対してより早く収束し、加速することもできる。
IGNDを効率的に実装できる鍵となる直感は、インクリメンタルなケースでは、近似的な2階情報をスカラー値に凝縮することができ、更新のスケーリング定数として機能するということである。
一般設定でガウスニュートン法をサポートする理論からIGNDを導出し、さらに、IGNDをSGDの十分にスケールされたバージョンとして解釈する方法を説明し、アルゴリズムのチューニングをシンプルにし、ロバスト性を高める。
最後に,教師付き学習課題と強化学習問題を解くことで,IGNDが実際にどのように利用できるかを示す。
シミュレーションの結果,IGNDはSGDよりも高い性能を示し,少なくとも最悪の場合にはSGDよりも優れていた。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Contrastive Weight Regularization for Large Minibatch SGD [8.927483136015283]
我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。
DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。
我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-11-17T22:07:38Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。