論文の概要: Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time
- arxiv url: http://arxiv.org/abs/2112.07628v2
- Date: Fri, 24 Nov 2023 00:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 05:19:18.665060
- Title: Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time
- Title(参考訳): サブクアドラティック時間における多層オーバーパラメータニューラルネットワークの訓練
- Authors: Zhao Song, Lichen Zhang, Ruizhe Zhang
- Abstract要約: 我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。
本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
- 参考スコア(独自算出の注目度): 12.348083977777833
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of training a multi-layer over-parametrized neural
network to minimize the empirical risk induced by a loss function. In the
typical setting of over-parametrization, the network width $m$ is much larger
than the data dimension $d$ and the number of training samples $n$
($m=\mathrm{poly}(n,d)$), which induces a prohibitive large weight matrix $W\in
\mathbb{R}^{m\times m}$ per layer. Naively, one has to pay $O(m^2)$ time to
read the weight matrix and evaluate the neural network function in both forward
and backward computation. In this work, we show how to reduce the training cost
per iteration. Specifically, we propose a framework that uses $m^2$ cost only
in the initialization phase and achieves \emph{a truly subquadratic cost per
iteration} in terms of $m$, i.e., $m^{2-\Omega(1)}$ per iteration. Our result
has implications beyond standard over-parametrization theory, as it can be
viewed as designing an efficient data structure on top of a pre-trained large
model to further speed up the fine-tuning process, a core procedure to deploy
large language models (LLM).
- Abstract(参考訳): 本稿では,多層超パラメータニューラルネットワークを訓練し,損失関数による経験的リスクを最小限に抑える問題を考える。
オーバーパラメータ化の典型的な設定では、ネットワーク幅 $m$ はデータ次元 $d$ よりも大きく、トレーニングサンプルの数は $n$ (m=\mathrm{poly}(n,d)$) である。
つまり、重み行列を読み、前方計算と後方計算の両方でニューラルネットワークの機能を評価するのに、o(m^2)$を払わなければならない。
本研究では,1イテレーションあたりのトレーニングコストの削減方法を示す。
具体的には、初期化フェーズでのみ$m^2$コストを使用し、$m$、すなわち、$m^{2-\Omega(1)} の観点で \emph{a really subquadratic cost per iteration} を達成するフレームワークを提案する。
この結果は,大規模言語モデル(LLM)をデプロイする中核的な手順である微調整プロセスをさらに高速化するために,事前学習された大規模モデルの上に効率的なデータ構造を設計すると考えることができる。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - A Sublinear Adversarial Training Algorithm [13.42699247306472]
本稿では,ReLUの活性化をシフトした2層ニューラルネットワーク上での対向的トレーニング手順の収束保証を解析する。
本研究では,半空間レポートデータ構造を適用して,時間コスト$o(m n d)$の逆トレーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-10T15:31:40Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。
我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文 参考訳(メタデータ) (2020-06-20T20:26:14Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。