論文の概要: Training Overparametrized Neural Networks in Sublinear Time
- arxiv url: http://arxiv.org/abs/2208.04508v2
- Date: Thu, 8 Feb 2024 00:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 20:12:12.241662
- Title: Training Overparametrized Neural Networks in Sublinear Time
- Title(参考訳): 準線形時間における過パラメータニューラルネットワークの訓練
- Authors: Yichuan Deng, Hang Hu, Zhao Song, Omri Weinstein, Danyang Zhuo
- Abstract要約: ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
- 参考スコア(独自算出の注目度): 14.918404733024332
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of deep learning comes at a tremendous computational and energy
cost, and the scalability of training massively overparametrized neural
networks is becoming a real barrier to the progress of artificial intelligence
(AI). Despite the popularity and low cost-per-iteration of traditional
backpropagation via gradient decent, stochastic gradient descent (SGD) has
prohibitive convergence rate in non-convex settings, both in theory and
practice.
To mitigate this cost, recent works have proposed to employ alternative
(Newton-type) training methods with much faster convergence rate, albeit with
higher cost-per-iteration. For a typical neural network with
$m=\mathrm{poly}(n)$ parameters and input batch of $n$ datapoints in
$\mathbb{R}^d$, the previous work of [Brand, Peng, Song, and Weinstein,
ITCS'2021] requires $\sim mnd + n^3$ time per iteration. In this paper, we
present a novel training method that requires only $m^{1-\alpha} n d + n^3$
amortized time in the same overparametrized regime, where $\alpha \in (0.01,1)$
is some fixed constant. This method relies on a new and alternative view of
neural networks, as a set of binary search trees, where each iteration
corresponds to modifying a small subset of the nodes in the tree. We believe
this view would have further applications in the design and analysis of deep
neural networks (DNNs).
- Abstract(参考訳): ディープラーニングの成功は、膨大な計算とエネルギーコストを伴い、膨大なパラメータ化されたニューラルネットワークのトレーニングのスケーラビリティは、人工知能(AI)の進歩の真の障壁になりつつある。
勾配による従来のバックプロパゲーションの人気とコストの低さにもかかわらず、確率勾配降下(SGD)は理論と実践の両方において非凸状態における収束を禁止している。
このコストを軽減するため、最近の研究ではより高速な収束率を持つ代替(ニュートン型)トレーニング手法が提案されている。
m=\mathrm{poly}(n)$パラメータと$\mathbb{R}^d$の$n$データポイントの入力バッチを持つ典型的なニューラルネットワークの場合、[Brand, Peng, Song, and Weinstein, ITCS'2021]の以前の作業は、イテレーション毎に$\sim mnd + n^3$の時間を必要とする。
本稿では,同じ過パラメータ化状態において,$m^{1-\alpha} n d + n^3$ amortized timeのみを必要とする,$\alpha \in (0.01,1)$ が固定定数であるような新しいトレーニング手法を提案する。
この方法は、ニューラルネットワークの新しい代替的なビューに依存しており、各イテレーションは、ツリー内のノードの小さなサブセットの変更に対応するバイナリサーチツリーのセットである。
この考え方は、ディープニューラルネットワーク(dnn)の設計と分析にさらに応用できると考えています。
関連論文リスト
- Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Bypass Exponential Time Preprocessing: Fast Neural Network Training via
Weight-Data Correlation Preprocessing [16.35997749365563]
最先端のディープニューラルネットワークは、モデル精度を高めるために、毎年サイズが大きくなる。
最近の作業(Song, Yang and Zhang, NeurIPS 2021)では、このイテレーション毎の時間を$o(nmd)$に削減していますが、データかニューラルネットワークの重みを前処理するのに指数関数的な時間が必要です。
本稿では,各反復でどのニューロンが発火するかを迅速かつ動的に検出するために,木構造に重みデータ相関を簡易に格納する前処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-25T16:40:49Z) - A Sublinear Adversarial Training Algorithm [13.42699247306472]
本稿では,ReLUの活性化をシフトした2層ニューラルネットワーク上での対向的トレーニング手順の収束保証を解析する。
本研究では,半空間レポートデータ構造を適用して,時間コスト$o(m n d)$の逆トレーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-10T15:31:40Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。