論文の概要: A Computationally Efficient Sparsified Online Newton Method
- arxiv url: http://arxiv.org/abs/2311.10085v1
- Date: Thu, 16 Nov 2023 18:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:14:36.802355
- Title: A Computationally Efficient Sparsified Online Newton Method
- Title(参考訳): 計算効率のよいオンラインニュートン法
- Authors: Fnu Devvrit, Sai Surya Duvvuri, Rohan Anil, Vineet Gupta, Cho-Jui
Hsieh, Inderjit Dhillon
- Abstract要約: Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
- 参考スコア(独自算出の注目度): 48.78646010774149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order methods hold significant promise for enhancing the convergence
of deep neural network training; however, their large memory and computational
demands have limited their practicality. Thus there is a need for scalable
second-order methods that can efficiently train large models. In this paper, we
introduce the Sparsified Online Newton (SONew) method, a memory-efficient
second-order algorithm that yields a sparsified yet effective preconditioner.
The algorithm emerges from a novel use of the LogDet matrix divergence measure;
we combine it with sparsity constraints to minimize regret in the online convex
optimization framework. Empirically, we test our method on large scale
benchmarks of up to 1B parameters. We achieve up to 30% faster convergence,
3.4% relative improvement in validation performance, and 80% relative
improvement in training loss, in comparison to memory efficient optimizers
including first order methods. Powering the method is a surprising fact --
imposing structured sparsity patterns, like tridiagonal and banded structure,
requires little to no overhead, making it as efficient and parallelizable as
first-order methods. In wall-clock time, tridiagonal SONew is only about 3%
slower per step than first-order methods but gives overall gains due to much
faster convergence. In contrast, one of the state-of-the-art (SOTA)
memory-intensive second-order methods, Shampoo, is unable to scale to large
benchmarks. Additionally, while Shampoo necessitates significant engineering
efforts to scale to large benchmarks, SONew offers a more straightforward
implementation, increasing its practical appeal. SONew code is available at:
https://github.com/devvrit/SONew
- Abstract(参考訳): 2階法は、ディープニューラルネットワークトレーニングの収束性を高めるための大きな約束を持っているが、その大きなメモリと計算要求は実用性に制限されている。
したがって、大規模モデルを効率的にトレーニングできるスケーラブルな二階法が必要となる。
本稿では,sparsified online newton (sonew) 法を提案する。
このアルゴリズムはlogdet matrix divergence measureの新たな使用から生まれ、オンライン凸最適化フレームワークの後悔を最小限に抑えるために、スパーシティ制約と組み合わせる。
実験では,提案手法を最大1bパラメータの大規模ベンチマークでテストした。
我々は,1次手法を含むメモリ効率のよい最適化器と比較して,最大30%の高速化,3.4%の検証性能の相対的改善,80%のトレーニング損失の相対的改善を達成している。
三角形や帯状構造のような構造的空間パターンを具現化するにはオーバーヘッドがほとんどないしは不要であり、一階法と同じくらい効率的かつ並列化可能である。
壁時計時間では、三対角のsonewは1次法よりも1ステップあたり約3%遅いが、収束が非常に速いため全体の上昇をもたらす。
対照的に、最先端(SOTA)メモリ集約型2階法の一つであるシャンプーは、大規模なベンチマークにスケールできない。
さらに、shampooは大規模なベンチマークにスケールアップするための重要なエンジニアリング努力を必要としているが、sonewはより簡単な実装を提供し、実用性を高めている。
新しいコードは、https://github.com/devvrit/sonewで入手できる。
関連論文リスト
- An Efficient Procedure for Computing Bayesian Network Structure Learning [0.9208007322096532]
本稿では,段階的にレベル付けされたスコアリング手法に基づいて,グローバルに最適なベイズネットワーク構造探索アルゴリズムを提案する。
実験結果から,本手法はメモリのみを使用する場合,ピークメモリ使用量を削減するだけでなく,計算効率も向上することが示された。
論文 参考訳(メタデータ) (2024-07-24T07:59:18Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Eva: A General Vectorized Approximation Framework for Second-order
Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。
我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。
実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文 参考訳(メタデータ) (2023-08-04T03:51:38Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。