論文の概要: Scalable Second Order Optimization for Deep Learning
- arxiv url: http://arxiv.org/abs/2002.09018v2
- Date: Fri, 5 Mar 2021 06:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:24:52.278595
- Title: Scalable Second Order Optimization for Deep Learning
- Title(参考訳): ディープラーニングのためのスケーラブルな2次最適化
- Authors: Rohan Anil, Vineet Gupta, Tomer Koren, Kevin Regan and Yoram Singer
- Abstract要約: 本稿では,第2次プレコンディショニング手法のスケーラブルな実装について述べる(第2に,完全行列 Adagrad の変種)。
我々の新しい設計は、多コアCPUと複数のアクセラレーションユニットを組み合わせた深層モデルのトレーニングに、一般的な異種ハードウェアアーキテクチャを効果的に活用する。
本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。
- 参考スコア(独自算出の注目度): 34.12384996822749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization in machine learning, both theoretical and applied, is presently
dominated by first-order gradient methods such as stochastic gradient descent.
Second-order optimization methods, that involve second derivatives and/or
second order statistics of the data, are far less prevalent despite strong
theoretical properties, due to their prohibitive computation, memory and
communication costs. In an attempt to bridge this gap between theoretical and
practical optimization, we present a scalable implementation of a second-order
preconditioned method (concretely, a variant of full-matrix Adagrad), that
along with several critical algorithmic and numerical improvements, provides
significant convergence and wall-clock time improvements compared to
conventional first-order methods on state-of-the-art deep models. Our novel
design effectively utilizes the prevalent heterogeneous hardware architecture
for training deep models, consisting of a multicore CPU coupled with multiple
accelerator units. We demonstrate superior performance compared to
state-of-the-art on very large learning tasks such as machine translation with
Transformers, language modeling with BERT, click-through rate prediction on
Criteo, and image classification on ImageNet with ResNet-50.
- Abstract(参考訳): 機械学習の最適化は、理論と応用の両方において現在、確率的勾配降下のような一階勾配法によって支配されている。
データの2次微分と/または2次統計を含む2次最適化法は、強い理論的性質にもかかわらず、計算の禁止、メモリおよび通信コストのため、はるかに一般的ではない。
理論的および実用的最適化のギャップを埋めるため,我々は,従来の最先端深層モデルにおける一階法と比較して,いくつかの重要なアルゴリズムと数値的改善に加えて,大幅な収束と壁時計時間の改善を提供する,二階プリコンディション方式(具体的にはフルマトリクスアダグラードの変種)のスケーラブルな実装を提案する。
提案する設計は,マルチコアcpuと複数のアクセラレータユニットを結合した深層モデルのトレーニングに,広く普及しているヘテロジニアスハードウェアアーキテクチャを効果的に活用する。
本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。
関連論文リスト
- Towards Differentiable Multilevel Optimization: A Gradient-Based Approach [1.6114012813668932]
本稿では,多レベル最適化のための新しい勾配に基づくアプローチを提案する。
本手法は解の精度と収束速度を両立させながら計算複雑性を著しく低減する。
私たちの知る限りでは、これは暗黙の微分の一般的なバージョンを提供する最初のアルゴリズムの1つである。
論文 参考訳(メタデータ) (2024-10-15T06:17:59Z) - Efficient Second-Order Neural Network Optimization via Adaptive Trust Region Methods [0.0]
SecondOrderAdaptive (SOAA) は、従来の二階法の限界を克服するために設計された新しい最適化アルゴリズムである。
私たちは、SOAAが1次近似よりも速く、より安定した収束を達成することを実証的に実証します。
論文 参考訳(メタデータ) (2024-10-03T08:23:06Z) - Improving Depression estimation from facial videos with face alignment,
training optimization and scheduling [0.3441021278275805]
本稿では2つの顔アライメント手法を用いて静的空間情報のみを使用するResNet-50に基づく2つのモデルを提案する。
ベンチマークデータセットを用いた実験では,単一ストリームやビデオの高度時間モデルと類似した結果が得られる一方,2つの異なるストリームのスコアレベルの融合は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-13T06:46:38Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Second-Order Neural ODE Optimizer [11.92713188431164]
微分プログラミングと呼ばれる特定の連続時間OC手法は、同じO(1)メモリコストで高次デリバティブに対して下位のODEを導出するために適用可能であることを示す。
この手法は,壁面時間における1次ベースラインよりもはるかに高速に収束する。
また,ニューラルODEの統合時間や2次フィードバックポリシなど,アーキテクチャの直接的な最適化も実現している。
論文 参考訳(メタデータ) (2021-09-29T02:58:18Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。