Fugu-MT 論文翻訳(概要): Scalable K-FAC Training for Deep Neural Networks with Distributed Preconditioning

論文の概要: Scalable K-FAC Training for Deep Neural Networks with Distributed Preconditioning

arxiv url: http://arxiv.org/abs/2206.15143v1
Date: Thu, 30 Jun 2022 09:22:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 15:13:55.514519
Title: Scalable K-FAC Training for Deep Neural Networks with Distributed Preconditioning
Title（参考訳）: 分散事前条件付きディープニューラルネットワークのためのスケーラブルK-FACトレーニング
Authors: Lin Zhang, Shaohuai Shi, Wei Wang, Bo Li
Abstract要約: 本稿では,深層ニューラルネットワーク(DNN)トレーニングのための分散プレコンディショニング手法DP-KFACを提案する。 DP-KFACは計算オーバーヘッドを1.55x-1.65x、通信コストを2.79x-3.15x、メモリフットプリントを1.14x-1.47x削減する。
参考スコア（独自算出の注目度）: 19.04755792575149
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The second-order optimization methods, notably the D-KFAC (Distributed Kronecker Factored Approximate Curvature) algorithms, have gained traction on accelerating deep neural network (DNN) training on GPU clusters. However, existing D-KFAC algorithms require to compute and communicate a large volume of second-order information, i.e., Kronecker factors (KFs), before preconditioning gradients, resulting in large computation and communication overheads as well as a high memory footprint. In this paper, we propose DP-KFAC, a novel distributed preconditioning scheme that distributes the KF constructing tasks at different DNN layers to different workers. DP-KFAC not only retains the convergence property of the existing D-KFAC algorithms but also enables three benefits: reduced computation overhead in constructing KFs, no communication of KFs, and low memory footprint. Extensive experiments on a 64-GPU cluster show that DP-KFAC reduces the computation overhead by 1.55x-1.65x, the communication cost by 2.79x-3.15x, and the memory footprint by 1.14x-1.47x in each second-order update compared to the state-of-the-art D-KFAC methods.
Abstract（参考訳）: d-kfac (distributed kronecker factored approximation curvature) アルゴリズムを含む2次最適化手法は、gpuクラスタでのdnn(accelerated deep neural network)トレーニングで注目を集めている。しかし、既存のD-KFACアルゴリズムは、クロンネッカー因子(KF)と呼ばれる大量の二次情報を事前条件で計算し、通信する必要があるため、計算や通信のオーバーヘッドが大きくなり、メモリフットプリントも大きくなる。本稿では,異なるdnn層にkf構成タスクを分散する分散プリコンディショニング方式dp-kfacを提案する。 DP-KFACは、既存のD-KFACアルゴリズムの収束性を保持するだけでなく、KFの構築における計算オーバーヘッドの削減、KFの通信の不要、メモリフットプリントの削減という3つの利点も実現している。 64-GPUクラスタでの大規模な実験により、DP-KFACは計算オーバーヘッドを1.55x-1.65x、通信コストを2.79x-3.15x、メモリフットプリントを1.14x-1.47x削減した。

関連論文リスト

Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。 TPAUC最適化のための既存のアルゴリズムは未探索のままである。 TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文参考訳（メタデータ） (2025-05-28T03:55:05Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
BDC-Occ: Binarized Deep Convolution Unit For Binarized Occupancy Network [55.21288428359509]
既存の3D占有ネットワークは重要なハードウェアリソースを必要としており、エッジデバイスの配備を妨げている。本稿では,バイナライズド・ディープ・コンボリューション(BDC)ユニットを提案し,バイナライズド・ディープ・コンボリューション・レイヤの数を増やしつつ性能を効果的に向上させる。我々のBDC-Occモデルは既存の3D占有ネットワークをバイナライズするために提案したBDCユニットを適用して作成する。
論文参考訳（メタデータ） (2024-05-27T10:44:05Z)
Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文参考訳（メタデータ） (2024-05-24T14:36:02Z)
Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文参考訳（メタデータ） (2023-11-01T16:37:00Z)
Analysis and Comparison of Two-Level KFAC Methods for Training Deep Neural Networks [0.0]
層間の低周波相互作用を2段階法により復元する関心について検討する。領域分解から着想を得て、異なる粗い空間を用いたKFACの2段階補正を提案し、評価した。
論文参考訳（メタデータ） (2023-03-31T14:21:53Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates [0.0]
K因子の指数平均構成パラダイムを活用し、オンライン数値線形代数手法を用いる。そこで我々は,K因子逆更新法を提案し,層サイズを線形にスケールする。また,線形にスケールする逆応用手法を提案する。
論文参考訳（メタデータ） (2022-10-16T09:41:23Z)
LKD-Net: Large Kernel Convolution Network for Single Image Dehazing [70.46392287128307]
本稿では,LKCB(Large Kernel Convolution Dehaze Block)とCEFN(Channel Enhanced Feed-forward Network)を組み合わせた新しいLKDブロックを提案する。設計されたDLKCBは、大規模なカーネルの畳み込みを、大量のパラメータや計算オーバーヘッドを伴わずに、より小さな奥行きの畳み込みと奥行きの縮み込みに分割することができる。我々のLKD-NetはTransformerベースのメソッドであるDehamerを1.79%の#Paramと48.9%のFLOPで劇的に上回っている。
論文参考訳（メタデータ） (2022-09-05T06:56:48Z)
Gradient Descent on Neurons and its Link to Approximate Second-Order Optimization [0.913755431537592]
Kronecker-Factored, block-diagonal curvature estimates (KFAC) は真の2次更新よりも有意に優れていることを示す。また、KFACは重みよりも勾配降下を行う一階勾配アルゴリズムを近似することを示した。
論文参考訳（メタデータ） (2022-01-28T17:06:26Z)
Accelerating Distributed K-FAC with Smart Parallelism of Computing and Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。そこで我々は,D-KFACを提案する。
論文参考訳（メタデータ） (2021-07-14T08:01:07Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。