論文の概要: Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time
- arxiv url: http://arxiv.org/abs/2112.07628v1
- Date: Tue, 14 Dec 2021 18:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:49:26.578187
- Title: Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time
- Title(参考訳): サブクアドラティック時間における多層オーバーパラメータニューラルネットワークの訓練
- Authors: Zhao Song, Lichen Zhang, Ruizhe Zhang
- Abstract要約: マルチ層オーバーパラメトリズドニューラルネットワークをトレーニングする際の問題点を考察する。
イテレーション毎のトレーニングコストの削減方法を示します。
- 参考スコア(独自算出の注目度): 15.47589790624764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of training a multi-layer over-parametrized neural
networks to minimize the empirical risk induced by a loss function. In the
typical setting of over-parametrization, the network width $m$ is much larger
than the data dimension $d$ and number of training samples $n$
($m=\mathrm{poly}(n,d)$), which induces a prohibitive large weight matrix $W\in
\mathbb{R}^{m\times m}$ per layer. Naively, one has to pay $O(m^2)$ time to
read the weight matrix and evaluate the neural network function in both forward
and backward computation. In this work, we show how to reduce the training cost
per iteration, specifically, we propose a framework that uses $m^2$ cost only
in the initialization phase and achieves a truly subquadratic cost per
iteration in terms of $m$, i.e., $m^{2-\Omega(1)}$ per iteration.
To obtain this result, we make use of various techniques, including a shifted
ReLU-based sparsifier, a lazy low rank maintenance data structure, fast
rectangular matrix multiplication, tensor-based sketching techniques and
preconditioning.
- Abstract(参考訳): 本稿では,多層超パラメータニューラルネットワークを訓練し,損失関数による経験的リスクを最小限に抑える問題を考える。
オーバーパラメータ化の典型的な設定では、ネットワーク幅 $m$ はデータ次元 $d$ よりもはるかに大きく、トレーニングサンプルの数は $n$ (m=\mathrm{poly}(n,d)$) である。
つまり、重み行列を読み、前方計算と後方計算の両方でニューラルネットワークの機能を評価するのに、o(m^2)$を払わなければならない。
本研究は,各イテレーションあたりのトレーニングコストの削減方法,具体的には初期化段階でのみ$m^2$ を消費し,1イテレーションあたり$m$,すなわち$m^{2-\omega(1)}$ という真にサブクアドラルなコストを達成するフレームワークを提案する。
この結果を得るためには,シフトしたreluベーススパルサファイザ,遅延低ランクメンテナンスデータ構造,高速矩形行列乗算,テンソルベーススケッチ技術,プリコンディショニングなど,様々な手法を用いた。
関連論文リスト
- Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - A Sublinear Adversarial Training Algorithm [13.42699247306472]
本稿では,ReLUの活性化をシフトした2層ニューラルネットワーク上での対向的トレーニング手順の収束保証を解析する。
本研究では,半空間レポートデータ構造を適用して,時間コスト$o(m n d)$の逆トレーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-10T15:31:40Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。
我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文 参考訳(メタデータ) (2020-06-20T20:26:14Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。