論文の概要: A Practical Layer-Parallel Training Algorithm for Residual Networks
- arxiv url: http://arxiv.org/abs/2009.01462v2
- Date: Thu, 18 Feb 2021 14:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 06:50:43.634124
- Title: A Practical Layer-Parallel Training Algorithm for Residual Networks
- Title(参考訳): 残余ネットワークのための実践的層並列学習アルゴリズム
- Authors: Qi Sun, Hexin Dong, Zewei Chen, Weizhen Dian, Jiacheng Sun, Yitong
Sun, Zhenguo Li, Bin Dong
- Abstract要約: ResNetのトレーニングのための勾配ベースのアルゴリズムは、通常、入力データの前方パスを必要とし、続いてパラメータを更新するために目的の勾配をバックプロパゲートする。
本稿では,データ拡張を実現するための新しいシリアル並列ハイブリッドトレーニング戦略と,通信コスト削減のためのダウンサンプリングフィルタを提案する。
- 参考スコア(独自算出の注目度): 41.267919563145604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based algorithms for training ResNets typically require a forward
pass of the input data, followed by back-propagating the objective gradient to
update parameters, which are time-consuming for deep ResNets. To break the
dependencies between modules in both the forward and backward modes,
auxiliary-variable methods such as the penalty and augmented Lagrangian (AL)
approaches have attracted much interest lately due to their ability to exploit
layer-wise parallelism. However, we observe that large communication overhead
and lacking data augmentation are two key challenges of these methods, which
may lead to low speedup ratio and accuracy drop across multiple compute
devices. Inspired by the optimal control formulation of ResNets, we propose a
novel serial-parallel hybrid training strategy to enable the use of data
augmentation, together with downsampling filters to reduce the communication
cost. The proposed strategy first trains the network parameters by solving a
succession of independent sub-problems in parallel and then corrects the
network parameters through a full serial forward-backward propagation of data.
Such a strategy can be applied to most of the existing layer-parallel training
methods using auxiliary variables. As an example, we validate the proposed
strategy using penalty and AL methods on ResNet and WideResNet across MNIST,
CIFAR-10 and CIFAR-100 datasets, achieving significant speedup over the
traditional layer-serial training methods while maintaining comparable
accuracy.
- Abstract(参考訳): ResNetをトレーニングするためのグラディエントベースのアルゴリズムは、通常、入力データの前方パスを必要とし、続いて、深いResNetに時間を要するパラメータを更新する目的の勾配をバックプロパゲートする。
モジュール間の依存関係を前方モードと後方モードの両方で壊すため、ペナルティや拡張ラグランジアン(al)アプローチのような補助変数の手法が最近、層間並列性を利用する能力から多くの関心を集めている。
しかし、これらの手法では、大きな通信オーバーヘッドとデータ拡張の欠如が2つの重要な課題であり、複数の計算装置間でのスピードアップ率と精度低下につながる可能性がある。
ResNetsの最適制御定式化にヒントを得て,データ拡張を実現するための新たなシリアル並列ハイブリッドトレーニング戦略と,通信コスト削減のためのダウンサンプリングフィルタを提案する。
提案手法は、まず独立サブプロブレムの連続を並列に解くことでネットワークパラメータを訓練し、次にデータの全シリアル前方伝播によってネットワークパラメータを補正する。
このような戦略は、補助変数を用いた既存のレイヤ並列トレーニング手法のほとんどに適用できる。
例えば、MNIST、CIFAR-10、CIFAR-100データセットにまたがるResNetおよびWideResNet上のペナルティとALメソッドを用いて提案手法を検証する。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Split-Boost Neural Networks [1.1549572298362787]
本稿では,スプリットブートと呼ばれるフィードフォワードアーキテクチャの革新的なトレーニング戦略を提案する。
このような新しいアプローチは、最終的に正規化項を明示的にモデル化することを避けることができる。
提案した戦略は、ベンチマーク医療保険設計問題内の実世界の(匿名化された)データセットでテストされる。
論文 参考訳(メタデータ) (2023-09-06T17:08:57Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning [16.38731019298993]
我々は、より優れたトレーニング性能を提供するために、新しいレイヤワイドパーティショニングとマージ、前方および後方パス並列フレームワークを提案している。
実使用事例を実験的に評価したところ,提案手法は訓練速度において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-22T11:47:34Z) - Layer-Parallel Training of Residual Networks with Auxiliary-Variable
Networks [28.775355111614484]
補助変数法は近年、多くの関心を集めているが、通信オーバーヘッドとデータ拡張の欠如に悩まされている。
本稿では,複数のコンピュータデバイスにまたがる現実的なResNetを学習するための新しい共同学習フレームワークを提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにまたがるResNetsおよびWideResNetsにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2021-12-10T08:45:35Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z) - Deep Networks with Fast Retraining [0.0]
本稿では,深層畳み込みニューラルネットワーク(DCNN)学習のための新しいMP逆ベース高速リトレーニング戦略を提案する。
各トレーニングでは、後進パスでトレーニングされた畳み込み層の数を制御するランダムな学習戦略が最初に利用される。
そこで,MP 逆ベースバッチ・バイ・バッチ・ラーニング・ストラテジーを開発し,産業規模の計算資源を使わずにネットワークを実装できるようにした。
論文 参考訳(メタデータ) (2020-08-13T15:17:38Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。