論文の概要: Training Overparametrized Neural Networks in Sublinear Time
- arxiv url: http://arxiv.org/abs/2208.04508v1
- Date: Tue, 9 Aug 2022 02:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:28:39.453640
- Title: Training Overparametrized Neural Networks in Sublinear Time
- Title(参考訳): 準線形時間における過パラメータニューラルネットワークの訓練
- Authors: Hang Hu, Zhao Song, Omri Weinstein, Danyang Zhuo
- Abstract要約: ディープラーニングには膨大な計算とエネルギーコストが伴う。
より高速な収束率を持つ代替(ニュートン型)訓練法を提案する。
これは、ニューラルネットワークの設計と分析にさらなる応用が期待できる。
- 参考スコア(独自算出の注目度): 20.22232675534232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of deep learning comes at a tremendous computational and energy
cost, and the scalability of training massively overparametrized neural
networks is becoming a real barrier to the progress of AI. Despite the
popularity and low cost-per-iteration of traditional Backpropagation via
gradient decent, SGD has prohibitive convergence rate in non-convex settings,
both in theory and practice.
To mitigate this cost, recent works have proposed to employ alternative
(Newton-type) training methods with much faster convergence rate, albeit with
higher cost-per-iteration. For a typical neural network with
$m=\mathrm{poly}(n)$ parameters and input batch of $n$ datapoints in
$\mathbb{R}^d$, the previous work of [Brand, Peng, Song, and Weinstein,
ITCS'2021] requires $\sim mnd + n^3$ time per iteration. In this paper, we
present a novel training method that requires only $m^{1-\alpha} n d + n^3$
amortized time in the same overparametrized regime, where $\alpha \in (0.01,1)$
is some fixed constant. This method relies on a new and alternative view of
neural networks, as a set of binary search trees, where each iteration
corresponds to modifying a small subset of the nodes in the tree. We believe
this view would have further applications in the design and analysis of DNNs.
- Abstract(参考訳): ディープラーニングの成功は、膨大な計算とエネルギーコストを伴い、大規模にパラメータ化されたニューラルネットワークのトレーニングのスケーラビリティは、AIの進歩の真の障壁になりつつある。
従来のバックプロパゲーションの人気とコストの低さにもかかわらず、SGDは理論と実践の両方において非凸環境での収束を禁止している。
このコストを軽減するため、最近の研究ではより高速な収束率を持つ代替(ニュートン型)トレーニング手法が提案されている。
m=\mathrm{poly}(n)$パラメータと$\mathbb{R}^d$の$n$データポイントの入力バッチを持つ典型的なニューラルネットワークの場合、[Brand, Peng, Song, and Weinstein, ITCS'2021]の以前の作業は、イテレーション毎に$\sim mnd + n^3$の時間を必要とする。
本稿では,同じ過パラメータ化状態において,$m^{1-\alpha} n d + n^3$ amortized timeのみを必要とする,$\alpha \in (0.01,1)$ が固定定数であるような新しいトレーニング手法を提案する。
この方法は、ニューラルネットワークの新しい代替的なビューに依存しており、各イテレーションは、ツリー内のノードの小さなサブセットの変更に対応するバイナリサーチツリーのセットである。
我々は、この見解がDNNの設計と分析にさらなる応用をもたらすと信じている。
関連論文リスト
- Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Bypass Exponential Time Preprocessing: Fast Neural Network Training via
Weight-Data Correlation Preprocessing [16.35997749365563]
最先端のディープニューラルネットワークは、モデル精度を高めるために、毎年サイズが大きくなる。
最近の作業(Song, Yang and Zhang, NeurIPS 2021)では、このイテレーション毎の時間を$o(nmd)$に削減していますが、データかニューラルネットワークの重みを前処理するのに指数関数的な時間が必要です。
本稿では,各反復でどのニューロンが発火するかを迅速かつ動的に検出するために,木構造に重みデータ相関を簡易に格納する前処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-25T16:40:49Z) - A Sublinear Adversarial Training Algorithm [13.42699247306472]
本稿では,ReLUの活性化をシフトした2層ニューラルネットワーク上での対向的トレーニング手順の収束保証を解析する。
本研究では,半空間レポートデータ構造を適用して,時間コスト$o(m n d)$の逆トレーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-10T15:31:40Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。