論文の概要: DεpS: Delayed ε-Shrinking for Faster Once-For-All Training
- arxiv url: http://arxiv.org/abs/2407.06167v1
- Date: Mon, 8 Jul 2024 17:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:30:11.044357
- Title: DεpS: Delayed ε-Shrinking for Faster Once-For-All Training
- Title(参考訳): DεpS: より高速な1回のトレーニングのための遅延εシンク
- Authors: Aditya Annavajjala, Alind Khare, Animesh Agrawal, Igor Fedorov, Hugo Latapie, Myungjin Lee, Alexey Tumanov,
- Abstract要約: CNNは、さまざまなハードウェア、動的環境、低消費電力組み込みデバイスにデプロイされるようになっている。
一度限りのトレーニングは、多くのモデル(サブネット)を一定のトレーニングコストで同時にトレーニングする、スケーラブルなアプローチとして現れました。
Delayed $epsilon$-Shrinking (D$epsilon$pS)を提案する。
- 参考スコア(独自算出の注目度): 8.199430861588919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CNNs are increasingly deployed across different hardware, dynamic environments, and low-power embedded devices. This has led to the design and training of CNN architectures with the goal of maximizing accuracy subject to such variable deployment constraints. As the number of deployment scenarios grows, there is a need to find scalable solutions to design and train specialized CNNs. Once-for-all training has emerged as a scalable approach that jointly co-trains many models (subnets) at once with a constant training cost and finds specialized CNNs later. The scalability is achieved by training the full model and simultaneously reducing it to smaller subnets that share model weights (weight-shared shrinking). However, existing once-for-all training approaches incur huge training costs reaching 1200 GPU hours. We argue this is because they either start the process of shrinking the full model too early or too late. Hence, we propose Delayed $\epsilon$-Shrinking (D$\epsilon$pS) that starts the process of shrinking the full model when it is partially trained (~50%) which leads to training cost improvement and better in-place knowledge distillation to smaller models. The proposed approach also consists of novel heuristics that dynamically adjust subnet learning rates incrementally (E), leading to improved weight-shared knowledge distillation from larger to smaller subnets as well. As a result, DEpS outperforms state-of-the-art once-for-all training techniques across different datasets including CIFAR10/100, ImageNet-100, and ImageNet-1k on accuracy and cost. It achieves 1.83% higher ImageNet-1k top1 accuracy or the same accuracy with 1.3x reduction in FLOPs and 2.5x drop in training cost (GPU*hrs)
- Abstract(参考訳): CNNは、さまざまなハードウェア、動的環境、低消費電力組み込みデバイスにデプロイされるようになっている。
このことがCNNアーキテクチャの設計とトレーニングにつながった。
デプロイメントシナリオの数が増えるにつれて、特殊なCNNを設計し、トレーニングするためのスケーラブルなソリューションを見つける必要がある。
一度限りのトレーニングは、多くのモデル(サブネット)を一定のトレーニングコストで同時にトレーニングし、後に特別なCNNを見つける、スケーラブルなアプローチとして現れました。
スケーラビリティは、フルモデルをトレーニングし、同時にモデルの重みを共有する小さなサブネット(重み付き縮小)に還元することで達成される。
しかし、既存のトレーニングアプローチでは、1200GPU時間に巨大なトレーニングコストがかかります。
これは、モデル全体を縮小するプロセスが早すぎるか遅すぎるためである、と私たちは主張しています。
そこで、Delayed $\epsilon$-Shrinking (D$\epsilon$pS)を提案する。これは、部分的に訓練された場合(~50%)にモデル全体を縮小するプロセスを開始し、トレーニングコストの改善と、より小さなモデルへのインプレース知識蒸留の改善につながる。
提案手法は, サブネット学習率を漸進的に動的に調整する新しいヒューリスティックス (E) によって構成される。
その結果、DepSはCIFAR10/100、ImageNet-100、ImageNet-1kなど、さまざまなデータセットにわたる最先端の1対1のトレーニングテクニックを精度とコストで上回ります。
ImageNet-1kトップ1の精度は1.83%向上し、FLOPは1.3倍、トレーニングコストは2.5倍削減された(GPU*hrs)。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks
for Lighter, Faster and Robust Models [0.0]
トレーニングパラメータ数を逐次減少させることで,効率的な深層畳み込みネットワークを段階的に構築する方法を実証する。
我々は、MNISTのデータに対して、わずか1500のパラメータで99.2%のSOTA精度と、CIFAR-10データセットで140K以上のパラメータで86.01%の精度を達成した。
論文 参考訳(メタデータ) (2022-05-23T13:51:06Z) - Structured Pruning is All You Need for Pruning CNNs at Initialization [38.88730369884401]
プルーニングは畳み込みニューラルネットワーク(CNN)のモデルサイズと計算コストを削減する一般的な手法である
ハードウェア効率の良いモデル圧縮方式であるPreCroppingを提案する。
重み付けと比較して, 提案手法は, 精度を犠牲にすることなく, 記憶と計算の両面において規則的で密度が高い。
論文 参考訳(メタデータ) (2022-03-04T19:54:31Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - ClickTrain: Efficient and Accurate End-to-End Deep Learning Training via
Fine-Grained Architecture-Preserving Pruning [35.22893238058557]
畳み込みニューラルネットワーク(CNN)はますます深くなり、より広く、非線形になっている。
CNNのための効率的なエンドツーエンドトレーニングおよびプルーニングフレームワークであるClickTrainを提案する。
論文 参考訳(メタデータ) (2020-11-20T01:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。