論文の概要: The staircase property: How hierarchical structure can guide deep
learning
- arxiv url: http://arxiv.org/abs/2108.10573v1
- Date: Tue, 24 Aug 2021 08:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:23:44.996453
- Title: The staircase property: How hierarchical structure can guide deep
learning
- Title(参考訳): 階段の特徴:階層構造が深層学習をいかに導くか
- Authors: Emmanuel Abbe, Enric Boix-Adsera, Matthew Brennan, Guy Bresler,
Dheeraj Nagaraj
- Abstract要約: 本稿では,深層ニューラルネットワークが階層的に学習できるデータ分布の構造特性を明らかにする。
この特性を満たす関数は、通常のニューラルネットワーク上で階層的に座標降下を用いて時間的に学習できることを実証する。
- 参考スコア(独自算出の注目度): 38.713566366330326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper identifies a structural property of data distributions that
enables deep neural networks to learn hierarchically. We define the "staircase"
property for functions over the Boolean hypercube, which posits that high-order
Fourier coefficients are reachable from lower-order Fourier coefficients along
increasing chains. We prove that functions satisfying this property can be
learned in polynomial time using layerwise stochastic coordinate descent on
regular neural networks -- a class of network architectures and initializations
that have homogeneity properties. Our analysis shows that for such staircase
functions and neural networks, the gradient-based algorithm learns high-level
features by greedily combining lower-level features along the depth of the
network. We further back our theoretical results with experiments showing that
staircase functions are also learnable by more standard ResNet architectures
with stochastic gradient descent. Both the theoretical and experimental results
support the fact that staircase properties have a role to play in understanding
the capabilities of gradient-based learning on regular networks, in contrast to
general polynomial-size networks that can emulate any SQ or PAC algorithms as
recently shown.
- Abstract(参考訳): 本稿では,深層ニューラルネットワークが階層的に学習できるデータ分布の構造特性を明らかにする。
ブール超キューブ上の関数の「階段」特性を定義し、高階フーリエ係数がチェーンの増加に伴う低階フーリエ係数から到達可能であることを仮定する。
この性質を満たす関数は、正規ニューラルネットワークの層状確率座標降下(英語版)(layerwise stochastic coordinate descend)を用いて多項式時間で学習できることを証明している。
解析により,そのような階段関数やニューラルネットワークに対して,勾配に基づくアルゴリズムは,ネットワーク深度に沿った低次特徴を優雅に組み合わせることで,高次特徴を学習することを示した。
さらに,より標準的なResNetアーキテクチャにより,階段関数が学習可能であることを示す実験により,理論的結果を裏付ける。
sqやpacアルゴリズムをエミュレートできる一般的な多項式サイズネットワークとは対照的に、この理論と実験の結果は、階段特性が通常のネットワーク上での勾配ベース学習の能力を理解する上で役割を担っているという事実を裏付けている。
関連論文リスト
- Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions [20.036783417617652]
勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討する。
理想化シングルパス勾配勾配学習シナリオの簡単な修正により,その計算効率が大幅に向上することを示す。
この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:34:31Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Feature Network Methods in Machine Learning and Applications [0.0]
機械学習(ML)機能ネットワーク(英: machine learning feature network)は、機械学習タスクにおけるML機能を、その類似性に基づいて接続するグラフである。
本稿では,機能クラスタリングとフィードフォワード学習によって階層的な接続が形成される,深い木構造特徴ネットワークの例を示す。
論文 参考訳(メタデータ) (2024-01-10T01:57:12Z) - Data Topology-Dependent Upper Bounds of Neural Network Widths [52.58441144171022]
まず、3層ニューラルネットワークがコンパクトな集合上のインジケータ関数を近似するように設計可能であることを示す。
その後、これは単純複体へと拡張され、その位相構造に基づいて幅の上界が導かれる。
トポロジカルアプローチを用いて3層ReLUネットワークの普遍近似特性を証明した。
論文 参考訳(メタデータ) (2023-05-25T14:17:15Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Towards Lower Bounds on the Depth of ReLU Neural Networks [7.355977594790584]
より多くの層を追加することで、正確に表現可能な関数のクラスが厳密に増加するかどうかを考察する。
We settled an old conjecture about piecewise linear function by Wang and Sun (2005) in affirmative。
対数深度を持つ関数を表すのに必要なニューラルネットワークのサイズについて上限を述べる。
論文 参考訳(メタデータ) (2021-05-31T09:49:14Z) - Neural networks adapting to datasets: learning network size and topology [77.34726150561087]
ニューラルネットワークは、勾配に基づくトレーニングの過程で、そのサイズとトポロジの両方を学習できるフレキシブルなセットアップを導入します。
結果として得られるネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。
論文 参考訳(メタデータ) (2020-06-22T12:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。