論文の概要: Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning
- arxiv url: http://arxiv.org/abs/2001.04413v6
- Date: Fri, 7 Jul 2023 06:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:28:08.177204
- Title: Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning
- Title(参考訳): 後方特徴補正:ディープラーニングがディープラーニング(階層的)学習に与える影響
- Authors: Zeyuan Allen-Zhu and Yuanzhi Li
- Abstract要約: 本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
- 参考スコア(独自算出の注目度): 66.05472746340142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning is also known as hierarchical learning, where the learner
_learns_ to represent a complicated target function by decomposing it into a
sequence of simpler functions to reduce sample and time complexity. This paper
formally analyzes how multi-layer neural networks can perform such hierarchical
learning _efficiently_ and _automatically_ by SGD on the training objective.
On the conceptual side, we present a theoretical characterizations of how
certain types of deep (i.e. super-constant layer) neural networks can still be
sample and time efficiently trained on some hierarchical tasks, when no
existing algorithm (including layerwise training, kernel method, etc) is known
to be efficient. We establish a new principle called "backward feature
correction", where the errors in the lower-level features can be automatically
corrected when training together with the higher-level layers. We believe this
is a key behind how deep learning is performing deep (hierarchical) learning,
as opposed to layerwise learning or simulating some non-hierarchical method.
On the technical side, we show for every input dimension $d > 0$, there is a
concept class of degree $\omega(1)$ multi-variate polynomials so that, using
$\omega(1)$-layer neural networks as learners, SGD can learn any function from
this class in $\mathsf{poly}(d)$ time to any $\frac{1}{\mathsf{poly}(d)}$
error, through learning to represent it as a composition of $\omega(1)$ layers
of quadratic functions using "backward feature correction." In contrast, we do
not know any other simpler algorithm (including layerwise training, applying
kernel method sequentially, training a two-layer network, etc) that can learn
this concept class in $\mathsf{poly}(d)$ time even to any $d^{-0.01}$ error. As
a side result, we prove $d^{\omega(1)}$ lower bounds for several
non-hierarchical learners, including any kernel methods.
- Abstract(参考訳): ディープラーニングは階層学習としても知られ、学習者_learns_は、サンプルと時間の複雑さを減らすために、より単純な関数の列に分解することで、複雑なターゲット関数を表現する。
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを公式に解析する。
概念的側面では、既存のアルゴリズム(階層的トレーニング、カーネルメソッドなどを含む)が効率的でない場合、ある種のディープ(超コンスタント層)ニューラルネットワークが標本化され、階層的なタスクで時間的に効率的に訓練されるかという理論的特徴を示す。
高レベルなレイヤとトレーニングするとき、低レベルな特徴のエラーを自動的に修正できる"backward feature correction"と呼ばれる新しい原則を確立した。
これは、階層的な学習や非階層的な手法のシミュレーションとは対照的に、ディープラーニングが深い(階層的な)学習を行うための鍵だと考えています。
技術的な面では、任意の入力次元 $d > 0$ に対して、次数 $\omega(1)$ 多変量多項式の概念クラスがあり、$\omega(1)$-layer neural networks を学習者として使うと、sgd はこのクラスから任意の関数を $\mathsf{poly}(d)$ time to any $\frac{1}{\mathsf{poly}(d)}$ error で学習できる。
対照的に、この概念クラスを$\mathsf{poly}(d)$ time even to any $d^{-0.01}$ errorで学習できるような、他のより単純なアルゴリズム(階層的なトレーニング、カーネルメソッドのシーケンシャルな適用、二層ネットワークのトレーニングなど)は知られていない。
その結果、任意のカーネルメソッドを含むいくつかの非階層学習者に対して、$d^{\omega(1)}$ の上限が証明される。
関連論文リスト
- Learning Hierarchical Polynomials of Multiple Nonlinear Features with Three-Layer Networks [46.190882811878744]
ディープラーニング理論では、ニューラルネットワークが階層的特徴をどのように学習するかを理解することが重要な問題である。
本研究では,3層ニューラルネットワークを用いたテキストマルチプル非線形特徴の階層的学習について検討する。
論文 参考訳(メタデータ) (2024-11-26T08:14:48Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。