論文の概要: Beyond Lazy Training for Over-parameterized Tensor Decomposition
- arxiv url: http://arxiv.org/abs/2010.11356v1
- Date: Thu, 22 Oct 2020 00:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:30:56.628940
- Title: Beyond Lazy Training for Over-parameterized Tensor Decomposition
- Title(参考訳): 過パラメータ化テンソル分解のための遅延トレーニング
- Authors: Xiang Wang, Chenwei Wu, Jason D. Lee, Tengyu Ma, Rong Ge
- Abstract要約: 過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
- 参考スコア(独自算出の注目度): 69.4699995828506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-parametrization is an important technique in training neural networks.
In both theory and practice, training a larger network allows the optimization
algorithm to avoid bad local optimal solutions. In this paper we study a
closely related tensor decomposition problem: given an $l$-th order tensor in
$(R^d)^{\otimes l}$ of rank $r$ (where $r\ll d$), can variants of gradient
descent find a rank $m$ decomposition where $m > r$? We show that in a lazy
training regime (similar to the NTK regime for neural networks) one needs at
least $m = \Omega(d^{l-1})$, while a variant of gradient descent can find an
approximate tensor when $m = O^*(r^{2.5l}\log d)$. Our results show that
gradient descent on over-parametrized objective could go beyond the lazy
training regime and utilize certain low-rank structure in the data.
- Abstract(参考訳): オーバーパラメトリゼーションはニューラルネットワークのトレーニングにおいて重要なテクニックである。
理論と実践の両方において、より大きなネットワークをトレーニングすることで、最適化アルゴリズムは悪い局所最適解を避けることができる。
本稿では、密接に関連するテンソル分解問題について考察する:$(R^d)^{\otimes l}$ of rank $r$ (where $r\ll d$) の$l$-階テンソルが与えられたとき、勾配降下の変種は階数$m$分解を見つけることができる:$m > r$?
遅延学習系(ニューラルネットワークのNTK則と似ている)では、少なくとも$m = \Omega(d^{l-1})$が必要であるが、勾配降下の変種は$m = O^*(r^{2.5l}\log d)$のときに近似テンソルを見つけることができる。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データの低ランク構造を利用する可能性が示唆された。
関連論文リスト
- Overcomplete Tensor Decomposition via Koszul-Young Flattenings [63.01248796170617]
最小ランク1項の和として$n_times n times n_3$ tensorを分解する新しいアルゴリズムを与える。
次数-d$s のさらに一般的なクラスは、定数 $C = C(d)$ に対して階数 $Cn$ を超えることができないことを示す。
論文 参考訳(メタデータ) (2024-11-21T17:41:09Z) - Adapting Newton's Method to Neural Networks through a Summary of
Higher-Order Derivatives [0.0]
関数 $boldsymboltheta$ に適用した勾配に基づく最適化法を考える。
このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。
論文 参考訳(メタデータ) (2023-12-06T20:24:05Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Average-Case Complexity of Tensor Decomposition for Low-Degree
Polynomials [93.59919600451487]
多くの統計的推論タスクにおいて「統計計算ギャップ」が発生する。
1つの成分が他の成分よりもわずかに大きいランダムオーダー3分解モデルを考える。
テンソルエントリは$ll n3/2$のとき最大成分を正確に推定できるが、$rgg n3/2$のとき失敗する。
論文 参考訳(メタデータ) (2022-11-10T00:40:37Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Near-Linear Time and Fixed-Parameter Tractable Algorithms for Tensor
Decompositions [51.19236668224547]
テンソルの低階近似について検討し,テンソルトレインとタッカー分解に着目した。
テンソル列車の分解には、小さなビクリテリアランクを持つビクリテリア$(1 + eps)$-approximationアルゴリズムと、O(q cdot nnz(A))$ランニングタイムを与える。
さらに、任意のグラフを持つテンソルネットワークにアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2022-07-15T11:55:09Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。
我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文 参考訳(メタデータ) (2020-06-20T20:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。