論文の概要: LayerDropBack: A Universally Applicable Approach for Accelerating Training of Deep Networks
- arxiv url: http://arxiv.org/abs/2412.18027v1
- Date: Mon, 23 Dec 2024 22:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:11.089030
- Title: LayerDropBack: A Universally Applicable Approach for Accelerating Training of Deep Networks
- Title(参考訳): LayerDropBack:ディープネットワークのトレーニングを加速するための普遍的に適用可能なアプローチ
- Authors: Evgeny Hershkovitch Neiterman, Gil Ben-Artzi,
- Abstract要約: 本稿では,広範囲の深層ネットワークにおけるトレーニングを高速化する,シンプルかつ効果的な手法であるLayerDropBack(LDB)を紹介する。
LDBは後方パスのみにランダム性を導入し、前方パスの整合性を維持する。
実験の結果、16.93%のトレーニング時間を23.97%に削減し、モデル精度を保留または向上させた。
- 参考スコア(独自算出の注目度): 5.00301731167245
- License:
- Abstract: Training very deep convolutional networks is challenging, requiring significant computational resources and time. Existing acceleration methods often depend on specific architectures or require network modifications. We introduce LayerDropBack (LDB), a simple yet effective method to accelerate training across a wide range of deep networks. LDB introduces randomness only in the backward pass, maintaining the integrity of the forward pass, guaranteeing that the same network is used during both training and inference. LDB can be seamlessly integrated into the training process of any model without altering its architecture, making it suitable for various network topologies. Our extensive experiments across multiple architectures (ViT, Swin Transformer, EfficientNet, DLA) and datasets (CIFAR-100, ImageNet) show significant training time reductions of 16.93\% to 23.97\%, while preserving or even enhancing model accuracy. Code is available at \url{https://github.com/neiterman21/LDB}.
- Abstract(参考訳): 非常に深い畳み込みネットワークの訓練は困難であり、かなりの計算資源と時間を必要とする。
既存の加速法は、しばしば特定のアーキテクチャに依存するか、ネットワークの変更を必要とする。
本稿では,広範囲の深層ネットワークにおけるトレーニングを高速化する,シンプルかつ効果的な手法であるLayerDropBack(LDB)を紹介する。
LDBは後方パスのみにランダム性を導入し、前方パスの整合性を維持し、トレーニングと推論の両方で同じネットワークが使用されることを保証する。
LDBはアーキテクチャを変更することなく、任意のモデルのトレーニングプロセスにシームレスに統合することができ、様々なネットワークトポロジに適している。
複数のアーキテクチャ(ViT、Swin Transformer、EfficientNet、DLA)とデータセット(CIFAR-100、ImageNet)にわたる大規模な実験では、モデルの正確性を保存または強化しながら、16.93\%から23.97\%のトレーニング時間の大幅な短縮が示されている。
コードは \url{https://github.com/neiterman21/LDB} で入手できる。
関連論文リスト
- ChannelDropBack: Forward-Consistent Stochastic Regularization for Deep Networks [5.00301731167245]
既存のテクニックでは、しばしば特別なレイヤを追加することによってネットワークのアーキテクチャを変更する必要がある。
本稿では,逆情報フローにのみランダム性を導入する単純な正規化手法であるChannelDropBackを提案する。
アーキテクチャを変更することなく、任意のモデルやレイヤのトレーニングプロセスにシームレスに統合することができます。
論文 参考訳(メタデータ) (2024-11-16T21:24:44Z) - Toward efficient resource utilization at edge nodes in federated learning [0.6990493129893112]
フェデレートされた学習により、エッジノードは、データを共有することなく、グローバルモデルの構築に協力的に貢献することができる。
計算リソースの制約とネットワーク通信は、ディープラーニングアプリケーションに典型的なより大きなモデルサイズにとって、深刻なボトルネックになる可能性がある。
デバイス上での資源利用を減らすため,転送学習にインスパイアされたFL戦略を提案し,評価する。
論文 参考訳(メタデータ) (2023-09-19T07:04:50Z) - Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable
Spiking Neural Network on FPGA [0.31498833540989407]
ODESAは、グラデーションを使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行う最初のネットワークである。
本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
論文 参考訳(メタデータ) (2023-05-31T00:34:15Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - Layer-Parallel Training of Residual Networks with Auxiliary-Variable
Networks [28.775355111614484]
補助変数法は近年、多くの関心を集めているが、通信オーバーヘッドとデータ拡張の欠如に悩まされている。
本稿では,複数のコンピュータデバイスにまたがる現実的なResNetを学習するための新しい共同学習フレームワークを提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにまたがるResNetsおよびWideResNetsにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2021-12-10T08:45:35Z) - Improving the Accuracy of Early Exits in Multi-Exit Architectures via
Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。
本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2021-04-21T11:12:35Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Embedded Knowledge Distillation in Depth-level Dynamic Neural Network [8.207403859762044]
類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。
本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。
CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-01T06:35:31Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。