論文の概要: Does Preprocessing Help Training Over-parameterized Neural Networks?
- arxiv url: http://arxiv.org/abs/2110.04622v1
- Date: Sat, 9 Oct 2021 18:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 16:43:09.107168
- Title: Does Preprocessing Help Training Over-parameterized Neural Networks?
- Title(参考訳): 前処理は過パラメータニューラルネットワークのトレーニングに役立つか?
- Authors: Zhao Song, Shuo Yang, Ruizhe Zhang
- Abstract要約: 我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
- 参考スコア(独自算出の注目度): 19.64638346701198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have achieved impressive performance in many areas.
Designing a fast and provable method for training neural networks is a
fundamental question in machine learning.
The classical training method requires paying $\Omega(mnd)$ cost for both
forward computation and backward computation, where $m$ is the width of the
neural network, and we are given $n$ training points in $d$-dimensional space.
In this paper, we propose two novel preprocessing ideas to bypass this
$\Omega(mnd)$ barrier:
$\bullet$ First, by preprocessing the initial weights of the neural networks,
we can train the neural network in $\widetilde{O}(m^{1-\Theta(1/d)} n d)$ cost
per iteration.
$\bullet$ Second, by preprocessing the input data points, we can train the
neural network in $\widetilde{O} (m^{4/5} nd )$ cost per iteration.
From the technical perspective, our result is a sophisticated combination of
tools in different fields, greedy-type convergence analysis in optimization,
sparsity observation in practical work, high-dimensional geometric search in
data structure, concentration and anti-concentration in probability. Our
results also provide theoretical insights for a large number of previously
established fast training methods.
In addition, our classical algorithm can be generalized to the Quantum
computation model. Interestingly, we can get a similar sublinear cost per
iteration but avoid preprocessing initial weights or input data points.
- Abstract(参考訳): ディープニューラルネットワークは多くの分野で素晴らしいパフォーマンスを実現している。
ニューラルネットワークを訓練するための高速で証明可能な手法を設計することは、機械学習の基本的な問題である。
従来のトレーニング手法では、前方計算と後方計算の両方に$\Omega(mnd)$を支払う必要があり、ここでは$m$はニューラルネットワークの幅であり、$d$次元空間において$n$のトレーニングポイントが与えられる。
本稿では、この$\omega(mnd)$障壁を回避するための2つの新しい前処理アイデアを提案する。 $\bullet$ first, ニューラルネットワークの初期重みを前処理することで、1イテレーションあたり$\widetilde{o}(m^{1-\theta(1/d)} n d)$でニューラルネットワークを訓練することができる。
第二に、入力データポイントを前処理することで、ニューラルネットワークを1イテレーションあたり$\widetilde{o} (m^{4/5} nd )$でトレーニングできる。
技術的観点からは, 異なる分野のツールの組み合わせ, 最適化におけるグリード型収束解析, 実用的な作業における疎度観察, データ構造における高次元幾何学的探索, 確率における集中度, 反集中度などである。
また,これまでに確立された高速訓練法について理論的考察を行った。
さらに,従来のアルゴリズムを量子計算モデルに一般化することができる。
興味深いことに、イテレーション毎に同様のサブ線形コストを得ることができるが、初期重み付けや入力データポイントの事前処理は避けることができる。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文 参考訳(メタデータ) (2022-12-14T15:58:37Z) - Bypass Exponential Time Preprocessing: Fast Neural Network Training via
Weight-Data Correlation Preprocessing [16.35997749365563]
最先端のディープニューラルネットワークは、モデル精度を高めるために、毎年サイズが大きくなる。
最近の作業(Song, Yang and Zhang, NeurIPS 2021)では、このイテレーション毎の時間を$o(nmd)$に削減していますが、データかニューラルネットワークの重みを前処理するのに指数関数的な時間が必要です。
本稿では,各反復でどのニューロンが発火するかを迅速かつ動的に検出するために,木構造に重みデータ相関を簡易に格納する前処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-25T16:40:49Z) - A Sublinear Adversarial Training Algorithm [13.42699247306472]
本稿では,ReLUの活性化をシフトした2層ニューラルネットワーク上での対向的トレーニング手順の収束保証を解析する。
本研究では,半空間レポートデータ構造を適用して,時間コスト$o(m n d)$の逆トレーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-10T15:31:40Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。
本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文 参考訳(メタデータ) (2021-12-14T18:13:36Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。