Fugu-MT 論文翻訳(概要): Accelerating Deep Neural Network Training via Distributed Hybrid Order Optimization

論文の概要: Accelerating Deep Neural Network Training via Distributed Hybrid Order Optimization

arxiv url: http://arxiv.org/abs/2505.00982v1
Date: Fri, 02 May 2025 04:02:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-05 17:21:19.898159
Title: Accelerating Deep Neural Network Training via Distributed Hybrid Order Optimization
Title（参考訳）: 分散ハイブリッド順序最適化によるディープニューラルネットワークトレーニングの高速化
Authors: Shunxian Gu, Chaoqun You, Bangbang Ren, Lailong Luo, Junxu Xia, Deke Guo,
Abstract要約: FOSIは、ハイブリッドな順序として、従来の勾配よりも早く収束する。総トレーニング時間で14タイム2.1タイムのスピードアップを達成している。
参考スコア（独自算出の注目度）: 13.381600281040287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling deep neural network (DNN) training to more devices can reduce time-to-solution. However, it is impractical for users with limited computing resources. FOSI, as a hybrid order optimizer, converges faster than conventional optimizers by taking advantage of both gradient information and curvature information when updating the DNN model. Therefore, it provides a new chance for accelerating DNN training in the resource-constrained setting. In this paper, we explore its distributed design, namely DHO$_2$, including distributed calculation of curvature information and model update with partial curvature information to accelerate DNN training with a low memory burden. To further reduce the training time, we design a novel strategy to parallelize the calculation of curvature information and the model update on different devices. Experimentally, our distributed design can achieve an approximate linear reduction of memory burden on each device with the increase of the device number. Meanwhile, it achieves $1.4\times\sim2.1\times$ speedup in the total training time compared with other distributed designs based on conventional first- and second-order optimizers.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)トレーニングをより多くのデバイスに拡張することで、解決までの時間を削減することができる。しかし、限られたコンピューティングリソースを持つユーザにとっては実用的ではない。 FOSIは,DNNモデル更新時の勾配情報と曲率情報の両方を活用することで,従来の最適化よりも高速に収束する。そのため、リソース制約のある環境でDNNトレーニングを加速する新たな機会を提供する。本稿では,その分散設計であるDHO$_2$について検討し,メモリ負荷の少ないDNNトレーニングを高速化するために,曲率情報と部分曲率情報を用いたモデル更新の分散計算を行った。さらにトレーニング時間を短縮するため、異なるデバイス上での曲率情報計算とモデル更新を並列化する新しい戦略を設計する。実験により, 分散設計により, デバイス数の増加に伴い, デバイス毎のメモリ負荷を近似的に低減できることがわかった。一方、従来の1階と2階のオプティマイザに基づく他の分散設計と比較して、トレーニング時間の合計で1.4\times\sim2.1\times$ Speedupを達成する。

関連論文リスト

AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文参考訳（メタデータ） (2023-11-10T02:18:33Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Design and Prototyping Distributed CNN Inference Acceleration in Edge Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文参考訳（メタデータ） (2022-11-24T19:48:30Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文参考訳（メタデータ） (2022-10-09T07:47:56Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文参考訳（メタデータ） (2021-11-26T18:44:59Z)
Distribution-sensitive Information Retention for Accurate Binary Neural Network [49.971345958676196]
本稿では、前向きのアクティベーションと後向きの勾配の情報を保持するために、新しいDIR-Net(Distribution-sensitive Information Retention Network)を提案する。我々のDIR-Netは、主流かつコンパクトなアーキテクチャの下で、SOTAバイナライゼーションアプローチよりも一貫して優れています。我々は、実世界のリソース制限されたデバイス上でDIR-Netを行い、ストレージの11.1倍の節約と5.4倍のスピードアップを実現した。
論文参考訳（メタデータ） (2021-09-25T10:59:39Z)
NL-CNN: A Resources-Constrained Deep Learning Model based on Nonlinear Convolution [0.0]
NL-CNNと略される新しい畳み込みニューラルネットワークモデルが提案され、非線型畳み込みは畳み込み+非線形性層のカスケードでエミュレートされる。いくつかの広く知られているデータセットのパフォーマンス評価が提供され、いくつかの関連する特徴を示している。
論文参考訳（メタデータ） (2021-01-30T13:38:42Z)
Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文参考訳（メタデータ） (2020-09-23T07:39:55Z)
Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-26T14:37:51Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。