論文の概要: KAISA: An Adaptive Second-order Optimizer Framework for Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2107.01739v1
- Date: Sun, 4 Jul 2021 21:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 00:08:49.712413
- Title: KAISA: An Adaptive Second-order Optimizer Framework for Deep Neural
Networks
- Title(参考訳): KAISA:ディープニューラルネットワークのための適応二階最適化フレームワーク
- Authors: J. Gregory Pauloski, Qi Huang, Lei Huang, Shivaram Venkataraman, Kyle
Chard, Ian Foster, Zhao Zhang
- Abstract要約: 本稿では,K-FAC対応,適応性,改善性,ScAlableの2次フレームワークであるKAISAを紹介する。
メモリと通信コストのトレードオフを定量化し,大規模モデル上でのKAISAを評価する。
- 参考スコア(独自算出の注目度): 11.340789769829069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kronecker-factored Approximate Curvature (K-FAC) has recently been shown to
converge faster in deep neural network (DNN) training than stochastic gradient
descent (SGD); however, K-FAC's larger memory footprint hinders its
applicability to large models. We present KAISA, a K-FAC-enabled, Adaptable,
Improved, and ScAlable second-order optimizer framework that adapts the memory
footprint, communication, and computation given specific models and hardware to
achieve maximized performance and enhanced scalability. We quantify the
tradeoffs between memory and communication cost and evaluate KAISA on large
models, including ResNet-50, Mask R-CNN, U-Net, and BERT, on up to 128 NVIDIA
A100 GPUs. Compared to the original optimizers, KAISA converges 18.1-36.3%
faster across applications with the same global batch size. Under a fixed
memory budget, KAISA converges 32.5% and 41.6% faster in ResNet-50 and
BERT-Large, respectively. KAISA can balance memory and communication to achieve
scaling efficiency equal to or better than the baseline optimizers.
- Abstract(参考訳): Kronecker-factored Approximate Curvature (K-FAC)は、最近、確率勾配降下(SGD)よりもディープニューラルネットワーク(DNN)トレーニングに収束することが示されているが、K-FACの大きなメモリフットプリントは、大きなモデルへの適用を妨げている。
本稿では,K-FAC対応,適応性,改良性,ScAlableの2次最適化フレームワークであるKAISAについて述べる。
メモリと通信コストのトレードオフを定量化し,ResNet-50, Mask R-CNN, U-Net, BERTなどの大規模モデル上で最大128個のNVIDIA A100 GPU上でKAISAを評価する。
元のオプティマイザと比較して、KAISAは同じグローバルバッチサイズでアプリケーション間で18.1-36.3%高速に収束する。
固定メモリ予算の下で、KAISA は ResNet-50 と BERT-Large でそれぞれ 32.5% と 41.6% の速度で収束する。
KAISAはメモリと通信のバランスをとり、ベースラインオプティマイザと同等以上のスケーリング効率を達成する。
関連論文リスト
- MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。
我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。
MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文 参考訳(メタデータ) (2024-08-24T05:54:47Z) - Adapprox: Adaptive Approximation in Adam Optimization via Randomized Low-Rank Matrices [24.319712013824876]
Adapproxは、Adamの2番目の瞬間をより正確に近似するためにランダム化された低ランク行列近似を利用する新しいアプローチである。
GPT-2のトレーニングとダウンストリームタスクでは、アダポックスは34.5%から49.9%のメモリ節約を達成した。
論文 参考訳(メタデータ) (2024-03-22T05:23:31Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - Scalable K-FAC Training for Deep Neural Networks with Distributed
Preconditioning [19.04755792575149]
本稿では,深層ニューラルネットワーク(DNN)トレーニングのための分散プレコンディショニング手法DP-KFACを提案する。
DP-KFACは計算オーバーヘッドを1.55x-1.65x、通信コストを2.79x-3.15x、メモリフットプリントを1.14x-1.47x削減する。
論文 参考訳(メタデータ) (2022-06-30T09:22:25Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Optimizing Memory Efficiency of Graph NeuralNetworks on Edge Computing
Platforms [10.045922468883486]
グラフニューラルネットワーク(GNN)は、さまざまな産業タスクで最先端のパフォーマンスを達成しました。
GNN推論のメモリ効率最適化のための特徴分解手法を提案する。
提案されたアプローチは、さまざまなGNNモデルに対する優れた最適化を達成し、幅広いデータセットをカバーし、推論を最大3倍に高速化する。
論文 参考訳(メタデータ) (2021-04-07T11:15:12Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Convolutional Neural Network Training with Distributed K-FAC [14.2773046188145]
Kronecker-factored Approximate Curvature (K-FAC)はFisher Information Matrixの近似として最近提案されている。
本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。
論文 参考訳(メタデータ) (2020-07-01T22:00:53Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。