Fugu-MT 論文翻訳(概要): KAISA: An Adaptive Second-order Optimizer Framework for Deep Neural Networks

論文の概要: KAISA: An Adaptive Second-order Optimizer Framework for Deep Neural Networks

arxiv url: http://arxiv.org/abs/2107.01739v1
Date: Sun, 4 Jul 2021 21:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-07 00:08:49.712413
Title: KAISA: An Adaptive Second-order Optimizer Framework for Deep Neural Networks
Title（参考訳）: KAISA:ディープニューラルネットワークのための適応二階最適化フレームワーク
Authors: J. Gregory Pauloski, Qi Huang, Lei Huang, Shivaram Venkataraman, Kyle Chard, Ian Foster, Zhao Zhang
Abstract要約: 本稿では,K-FAC対応,適応性,改善性,ScAlableの2次フレームワークであるKAISAを紹介する。メモリと通信コストのトレードオフを定量化し,大規模モデル上でのKAISAを評価する。
参考スコア（独自算出の注目度）: 11.340789769829069
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Kronecker-factored Approximate Curvature (K-FAC) has recently been shown to converge faster in deep neural network (DNN) training than stochastic gradient descent (SGD); however, K-FAC's larger memory footprint hinders its applicability to large models. We present KAISA, a K-FAC-enabled, Adaptable, Improved, and ScAlable second-order optimizer framework that adapts the memory footprint, communication, and computation given specific models and hardware to achieve maximized performance and enhanced scalability. We quantify the tradeoffs between memory and communication cost and evaluate KAISA on large models, including ResNet-50, Mask R-CNN, U-Net, and BERT, on up to 128 NVIDIA A100 GPUs. Compared to the original optimizers, KAISA converges 18.1-36.3% faster across applications with the same global batch size. Under a fixed memory budget, KAISA converges 32.5% and 41.6% faster in ResNet-50 and BERT-Large, respectively. KAISA can balance memory and communication to achieve scaling efficiency equal to or better than the baseline optimizers.
Abstract（参考訳）: Kronecker-factored Approximate Curvature (K-FAC)は、最近、確率勾配降下(SGD)よりもディープニューラルネットワーク(DNN)トレーニングに収束することが示されているが、K-FACの大きなメモリフットプリントは、大きなモデルへの適用を妨げている。本稿では,K-FAC対応,適応性,改良性,ScAlableの2次最適化フレームワークであるKAISAについて述べる。メモリと通信コストのトレードオフを定量化し,ResNet-50, Mask R-CNN, U-Net, BERTなどの大規模モデル上で最大128個のNVIDIA A100 GPU上でKAISAを評価する。元のオプティマイザと比較して、KAISAは同じグローバルバッチサイズでアプリケーション間で18.1-36.3%高速に収束する。固定メモリ予算の下で、KAISA は ResNet-50 と BERT-Large でそれぞれ 32.5% と 41.6% の速度で収束する。 KAISAはメモリと通信のバランスをとり、ベースラインオプティマイザと同等以上のスケーリング効率を達成する。

関連論文リスト

Finding Optimal Kernel Size and Dimension in Convolutional Neural Networks An Architecture Optimization Approach [0.0]
畳み込みニューラルネットワーク(CNN)におけるカーネルサイズ選択は批判的だが、しばしば見過ごされる設計決定である。本稿では,最適なカーネルサイズ決定のためのBKSEF(Best Kernel Size Estimation)を提案する。 BKSEFは情報理論、信号処理、学習理論の原理を統合することで、情報ゲイン、計算効率、精度の向上のバランスをとる。
論文参考訳（メタデータ） (2025-06-16T15:15:30Z)
Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文参考訳（メタデータ） (2025-03-13T03:56:22Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。 MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文参考訳（メタデータ） (2024-08-24T05:54:47Z)
Adapprox: Adaptive Approximation in Adam Optimization via Randomized Low-Rank Matrices [24.319712013824876]
Adapproxは、Adamの2番目の瞬間をより正確に近似するためにランダム化された低ランク行列近似を利用する新しいアプローチである。 GPT-2のトレーニングとダウンストリームタスクでは、アダポックスは34.5%から49.9%のメモリ節約を達成した。
論文参考訳（メタデータ） (2024-03-22T05:23:31Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文参考訳（メタデータ） (2022-07-07T23:55:52Z)
Scalable K-FAC Training for Deep Neural Networks with Distributed Preconditioning [19.04755792575149]
本稿では,深層ニューラルネットワーク(DNN)トレーニングのための分散プレコンディショニング手法DP-KFACを提案する。 DP-KFACは計算オーバーヘッドを1.55x-1.65x、通信コストを2.79x-3.15x、メモリフットプリントを1.14x-1.47x削減する。
論文参考訳（メタデータ） (2022-06-30T09:22:25Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
Optimizing Memory Efficiency of Graph NeuralNetworks on Edge Computing Platforms [10.045922468883486]
グラフニューラルネットワーク(GNN)は、さまざまな産業タスクで最先端のパフォーマンスを達成しました。 GNN推論のメモリ効率最適化のための特徴分解手法を提案する。提案されたアプローチは、さまざまなGNNモデルに対する優れた最適化を達成し、幅広いデータセットをカバーし、推論を最大3倍に高速化する。
論文参考訳（メタデータ） (2021-04-07T11:15:12Z)
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。また,NNP-Iコンパイラと比較して28～78%の高速化を実現している。
論文参考訳（メタデータ） (2020-07-14T18:50:12Z)
Convolutional Neural Network Training with Distributed K-FAC [14.2773046188145]
Kronecker-factored Approximate Curvature (K-FAC)はFisher Information Matrixの近似として最近提案されている。本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。
論文参考訳（メタデータ） (2020-07-01T22:00:53Z)
FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。 FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文参考訳（メタデータ） (2020-06-03T05:20:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。