論文の概要: DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training
- arxiv url: http://arxiv.org/abs/2310.02025v3
- Date: Sun, 4 Feb 2024 00:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:54:14.465703
- Title: DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training
- Title(参考訳): DeepZero: 深層モデルトレーニングにおけるゼロ階最適化のスケールアップ
- Authors: Aochuan Chen, Yimeng Zhang, Jinghan Jia, James Diffenderfer, Jiancheng
Liu, Konstantinos Parasyris, Yihua Zhang, Zheng Zhang, Bhavya Kailkhura,
Sijia Liu
- Abstract要約: ゼロオーダー(ZO)最適化は、機械学習(ML)問題を解決する一般的なテクニックとなっている。
ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性を、パフォーマンスを著しく低下させることなく実証した以前の研究はない。
我々は,ZO最適化をDNNトレーニングにスクラッチから拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
- 参考スコア(独自算出の注目度): 34.21597450890708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) optimization has become a popular technique for solving
machine learning (ML) problems when first-order (FO) information is difficult
or impossible to obtain. However, the scalability of ZO optimization remains an
open problem: Its use has primarily been limited to relatively small-scale ML
problems, such as sample-wise adversarial attack generation. To our best
knowledge, no prior work has demonstrated the effectiveness of ZO optimization
in training deep neural networks (DNNs) without a significant decrease in
performance. To overcome this roadblock, we develop DeepZero, a principled ZO
deep learning (DL) framework that can scale ZO optimization to DNN training
from scratch through three primary innovations. First, we demonstrate the
advantages of coordinatewise gradient estimation (CGE) over randomized
vector-wise gradient estimation in training accuracy and computational
efficiency. Second, we propose a sparsityinduced ZO training protocol that
extends the model pruning methodology using only finite differences to explore
and exploit the sparse DL prior in CGE. Third, we develop the methods of
feature reuse and forward parallelization to advance the practical
implementations of ZO training. Our extensive experiments show that DeepZero
achieves state-of-the-art (SOTA) accuracy on ResNet-20 trained on CIFAR-10,
approaching FO training performance for the first time. Furthermore, we show
the practical utility of DeepZero in applications of certified adversarial
defense and DL-based partial differential equation error correction, achieving
10-20% improvement over SOTA. We believe our results will inspire future
research on scalable ZO optimization and contribute to advancing DL with black
box. Codes are available at https://github.com/OPTML-Group/DeepZero.
- Abstract(参考訳): zeroth-order(zo)最適化は、一階(fo)情報が取得困難あるいは不可能である場合、機械学習(ml)問題を解決する一般的なテクニックとなっている。
しかし、ZO最適化のスケーラビリティは未解決の問題であり、主にサンプルワイドの敵攻撃生成のような比較的小規模なML問題に限られている。
我々の知る限り、ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性は、性能を著しく低下させることなく実証されていない。
この障害を克服するために,ZO最適化をDNNトレーニングにスクラッチから3つの主要なイノベーションまで拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
まず,学習精度と計算効率において,ランダム化ベクトル勾配推定よりも座標勾配推定(cge)の利点を示す。
第2に, CGE 以前のスパースDL を探索・活用するために, 有限差分のみを用いてモデル刈り込み手法を拡張したスペーサ誘導型ZOトレーニングプロトコルを提案する。
第3に,ZO訓練の実践的実装を進めるために,機能再利用法と前方並列化法を開発した。
CIFAR-10でトレーニングしたResNet-20では,DeepZeroがSOTA(State-of-the-art)の精度を実現し,FOトレーニング性能に初めて接近した。
さらに,認証された対角防御とDLに基づく偏微分方程式誤差補正の適用においてDeepZeroの実用性を示し,SOTAよりも10~20%向上した。
我々は,拡張性のあるZO最適化に関する今後の研究を刺激し,ブラックボックスによるDLの進展に寄与すると考えている。
コードはhttps://github.com/OPTML-Group/DeepZeroで入手できる。
関連論文リスト
- Dynamic Sparse Training via Balancing the Exploration-Exploitation
Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。
既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。
本研究では,動的スパース学習をスパース接続探索問題として考察する。
実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文 参考訳(メタデータ) (2022-11-30T01:22:25Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Two Heads are Better than One: Robust Learning Meets Multi-branch Models [14.72099568017039]
本稿では,従来の対人訓練用データセットのみを用いて,最先端のパフォーマンスを得るために,分岐直交補助訓練(BORT)を提案する。
我々は, CIFAR-10, CIFAR-100, SVHN に対する Epsilon = 8/255 の ell_infty ノルム束縛摂動に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-17T05:42:59Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Passive Batch Injection Training Technique: Boosting Network Performance
by Injecting Mini-Batches from a different Data Distribution [39.8046809855363]
この研究は、元の入力データとは異なる分布から追加のデータを利用するディープニューラルネットワークの新しいトレーニング手法を提案する。
私たちの知る限りでは、畳み込みニューラルネットワーク(CNN)のトレーニングを支援するために、異なるデータ分散を利用する最初の研究である。
論文 参考訳(メタデータ) (2020-06-08T08:17:32Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。