論文の概要: Backward Feature Correction: How Deep Learning Performs Deep Learning
- arxiv url: http://arxiv.org/abs/2001.04413v5
- Date: Sat, 13 Mar 2021 12:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 22:23:26.380278
- Title: Backward Feature Correction: How Deep Learning Performs Deep Learning
- Title(参考訳): 後方的特徴補正:深層学習がどのように深層学習を行うか
- Authors: Zeyuan Allen-Zhu and Yuanzhi Li
- Abstract要約: 特定の階層的学習タスクにおいて、SGDを用いて、ディープニューラルネットワークが標本化され、時間効率がよいことを示す。
我々は、ネットワーク内の上位層をトレーニングすることで、下位層の特徴を改善する"後方特徴補正"と呼ばれる新しい原則を確立する。
- 参考スコア(独自算出の注目度): 66.05472746340142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How does a 110-layer ResNet learn a high-complexity classifier using
relatively few training examples and short training time? We present a theory
towards explaining this in terms of Hierarchical Learning. We refer
hierarchical learning as the learner learns to represent a complicated target
function by decomposing it into a sequence of simpler functions to reduce
sample and time complexity. We formally analyze how multi-layer neural networks
can perform such hierarchical learning efficiently and automatically by
applying SGD.
On the conceptual side, we present, to the best of our knowledge, the FIRST
theory result indicating how deep neural networks can still be sample and time
efficient using SGD on certain hierarchical learning tasks, when NO KNOWN
existing algorithm is efficient. We establish a new principle called "backward
feature correction", where training higher-level layers in the network can
improve the features of lower-level ones. We believe this is the key to
understand the deep learning process in multi-layer neural networks.
On the technical side, we show for regression and even binary classification,
for every input dimension $d>0$, there is a concept class of degree $\omega(1)$
polynomials so that, using $\omega(1)$-layer neural networks as learners, SGD
can learn any function from this class in $\mathsf{poly}(d)$ time and sample
complexity to any $\frac{1}{\mathsf{poly}(d)}$ error, through learning to
represent it as a composition of $\omega(1)$ layers of quadratic functions. In
contrast, we do not know any other simple algorithm (including layer-wise
training or applying kernel method sequentially) that can learn this concept
class in $\mathsf{poly}(d)$ time even to any $d^{-0.01}$ error. As a side
result, we prove $d^{\omega(1)}$ lower bounds for several non-hierarchical
learners, including any kernel methods, neural tangent or neural compositional
kernels.
- Abstract(参考訳): 110層resnetは、比較的少ないトレーニング例と短いトレーニング時間を使って、複雑な分類器をどのように学んでいるのか?
我々はこれを階層的学習の観点から説明する理論を提示する。
本稿では,学習者が複雑な対象関数を単純な関数列に分解することで,サンプルや時間的複雑さを減らし,複雑な対象関数を表現できることを,階層学習と呼ぶ。
我々は,SGDを適用して,階層的学習を効率的に,かつ自動的に行うことができる多層ニューラルネットワークを正式に分析する。
提案する概念的側面では,従来のNOKNOWNアルゴリズムが効率的である場合,特定の階層的学習タスクにおいて,SGDを用いた深層ニューラルネットワークのサンプリングと時間効率を示すFIRST理論結果について述べる。
我々は、ネットワーク内の上位層をトレーニングすることで、下位層の特徴を改善する"後方特徴補正"と呼ばれる新しい原則を確立する。
これは、多層ニューラルネットワークのディープラーニングプロセスを理解するための鍵だと考えています。
技術的な面では、任意の入力次元 $d>0$ に対して、次数 $\omega(1)$ 多項式の概念クラスがあり、$\omega(1)$-layer neural networks を学習者として使うと、sgd はこのクラスから任意の関数を$\mathsf{poly}(d)$ で学習でき、任意の$\frac{1}{\mathsf{poly}(d)}$ error を学習することで二次関数の$\omega(1)$ 層の合成として表現できる。
対照的に、この概念クラスを任意の$d^{-0.01}$エラーに対しても$\mathsf{poly}(d)$ timeで学習できる(階層的なトレーニングやカーネルメソッドの逐次適用を含む)他の単純なアルゴリズムを知らない。
副次的な結果として,ニューラルネットワークやニューラルコンポジションカーネルを含む複数の非階層的学習者に対して,$d^{\omega(1)}$ローバウンドを証明した。
関連論文リスト
- Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Training Overparametrized Neural Networks in Sublinear Time [20.22232675534232]
ディープラーニングには膨大な計算とエネルギーコストが伴う。
より高速な収束率を持つ代替(ニュートン型)訓練法を提案する。
これは、ニューラルネットワークの設計と分析にさらなる応用が期待できる。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - Exploring the Common Principal Subspace of Deep Features in Neural
Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。
具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。
異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文 参考訳(メタデータ) (2021-10-06T15:48:32Z) - On the Provable Generalization of Recurrent Neural Networks [7.115768009778412]
リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析
正規化条件を使わずに関数を学習する一般化誤差を証明した。
また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
論文 参考訳(メタデータ) (2021-09-29T02:06:33Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - A Corrective View of Neural Networks: Representation, Memorization and
Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-01T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。