論文の概要: Towards Understanding Hierarchical Learning: Benefits of Neural
Representations
- arxiv url: http://arxiv.org/abs/2006.13436v2
- Date: Fri, 5 Mar 2021 15:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:16:01.948887
- Title: Towards Understanding Hierarchical Learning: Benefits of Neural
Representations
- Title(参考訳): 階層学習の理解に向けて:ニューラル表現の利点
- Authors: Minshuo Chen, Yu Bai, Jason D. Lee, Tuo Zhao, Huan Wang, Caiming
Xiong, Richard Socher
- Abstract要約: この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
- 参考スコア(独自算出の注目度): 160.33479656108926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks can empirically perform efficient hierarchical learning,
in which the layers learn useful representations of the data. However, how they
make use of the intermediate representations are not explained by recent
theories that relate them to "shallow learners" such as kernels. In this work,
we demonstrate that intermediate neural representations add more flexibility to
neural networks and can be advantageous over raw inputs. We consider a fixed,
randomly initialized neural network as a representation function fed into
another trainable network. When the trainable network is the quadratic Taylor
model of a wide two-layer network, we show that neural representation can
achieve improved sample complexities compared with the raw input: For learning
a low-rank degree-$p$ polynomial ($p \geq 4$) in $d$ dimension, neural
representation requires only $\tilde{O}(d^{\lceil p/2 \rceil})$ samples, while
the best-known sample complexity upper bound for the raw input is
$\tilde{O}(d^{p-1})$. We contrast our result with a lower bound showing that
neural representations do not improve over the raw input (in the infinite width
limit), when the trainable network is instead a neural tangent kernel. Our
results characterize when neural representations are beneficial, and may
provide a new perspective on why depth is important in deep learning.
- Abstract(参考訳): ディープニューラルネットワークは、効率的な階層的学習を経験的に実行し、その層がデータの有用な表現を学習する。
しかし、中間表現をどのように利用するかは、カーネルのような「浅すぎる学習者」に関連する最近の理論では説明されていない。
本研究では,中間的ニューラルネットワーク表現がニューラルネットワークに柔軟性をもたらし,生入力よりも有利であることを示す。
我々は、ランダムに初期化された固定ニューラルネットワークを、別の学習可能なネットワークに供給される表現関数と考える。
トレーニング可能なネットワークが広い2層ネットワークの二次テイラーモデルである場合、ニューラル表現は、原入力と比較して、サンプルの複雑さを改善することができることを示す: 低ランクの次数-$p$多項式(p \geq 4$)を$d$次元で学習するためには、ニューラル表現は、$\tilde{O}(d^{\lceil p/2 \rceil})$サンプルしか必要とせず、最もよく知られたサンプルの複雑さは$\tilde{O}(d^{p-1})$である。
我々は、学習可能なネットワークが神経接核である場合、ニューラルネットワークの表現が生の入力(無限幅の限界)よりも改善されないことを示す下界の値と比較する。
この結果から,深度が深層学習においてなぜ重要であるのかという新たな視点が得られた。
関連論文リスト
- LinSATNet: The Positive Linear Satisfiability Neural Networks [116.65291739666303]
本稿では,ニューラルネットワークに人気の高い正の線形満足度を導入する方法について検討する。
本稿では,古典的なシンクホーンアルゴリズムを拡張し,複数の辺分布の集合を共同で符号化する,最初の微分可能満足層を提案する。
論文 参考訳(メタデータ) (2024-07-18T22:05:21Z) - Generative Kaleidoscopic Networks [2.321684718906739]
我々は、このニューラルネットワークの特性を利用して、ジェネレーティブ・カレイドスコープと呼ばれるデータセット・カレイドスコープを設計する。
我々は、CNN、Transformers、U-Netsといった他のディープラーニングアーキテクチャに対して、この現象を様々な程度に観測した。
論文 参考訳(メタデータ) (2024-02-19T02:48:40Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - On Tractable Representations of Binary Neural Networks [23.50970665150779]
我々は、二項ニューラルネットワークの決定関数を、順序付き二項決定図(OBDD)や意味決定図(SDD)などの抽出可能な表現にコンパイルすることを検討する。
実験では,SDDとしてニューラルネットワークのコンパクトな表現を得ることが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-05T03:21:26Z) - A Deep Conditioning Treatment of Neural Networks [37.192369308257504]
本研究では,入力データの特定のカーネル行列の条件付けを改善することにより,ニューラルネットワークのトレーニング性を向上させることを示す。
ニューラルネットワークの上位層のみのトレーニングと、ニューラルネットワークのタンジェントカーネルを通じてすべてのレイヤをトレーニングするための学習を行うためのバージョンを提供しています。
論文 参考訳(メタデータ) (2020-02-04T20:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。