論文の概要: Depth-Bounds for Neural Networks via the Braid Arrangement
- arxiv url: http://arxiv.org/abs/2502.09324v1
- Date: Thu, 13 Feb 2025 13:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:38.999647
- Title: Depth-Bounds for Neural Networks via the Braid Arrangement
- Title(参考訳): ブレイド配置によるニューラルネットワークの深さ境界
- Authors: Moritz Grillo, Christoph Hertrich, Georg Loho,
- Abstract要約: 我々は、$d$数値の最大値を表すのに必要な$Omega(loglog d)$ hidden layerの非定数な下界を証明する。
ランク3の最大化層とランク2の最大化層が続くと、最大7個の数を表すのに十分であることを示す。
- 参考スコア(独自算出の注目度): 5.127394801557798
- License:
- Abstract: We contribute towards resolving the open question of how many hidden layers are required in ReLU networks for exactly representing all continuous and piecewise linear functions on $\mathbb{R}^d$. While the question has been resolved in special cases, the best known lower bound in general is still 2. We focus on neural networks that are compatible with certain polyhedral complexes, more precisely with the braid fan. For such neural networks, we prove a non-constant lower bound of $\Omega(\log\log d)$ hidden layers required to exactly represent the maximum of $d$ numbers. Additionally, under our assumption, we provide a combinatorial proof that 3 hidden layers are necessary to compute the maximum of 5 numbers; this had only been verified with an excessive computation so far. Finally, we show that a natural generalization of the best known upper bound to maxout networks is not tight, by demonstrating that a rank-3 maxout layer followed by a rank-2 maxout layer is sufficient to represent the maximum of 7 numbers.
- Abstract(参考訳): 我々は、$\mathbb{R}^d$ 上のすべての連続かつ断片的な線型関数を正確に表現するために、ReLU ネットワークにおいて隠れた層がいくつ必要かというオープンな問題を解くことに貢献する。
この問題は特別なケースでは解決されているが、一般に知られている最も低い境界は、まだ 2 である。
我々は、特定の多面体錯体と互換性のあるニューラルネットワーク、より正確にはブレイドファンに焦点を当てている。
このようなニューラルネットワークでは、$d$の数値の最大値を正確に表すのに必要な、$\Omega(\log\log d)$の非定数な下界を証明します。
さらに、我々の仮定では、最大5個の数値を計算するのに3つの隠蔽層が必要であるという組合せ的証明を与える。
最後に、ランク3の最大値層とランク2の最大値層が続くと、最大値の最大値を表すのに十分であることを示すことによって、最もよく知られた上限値の最大値への自然な一般化が厳密でないことを示す。
関連論文リスト
- Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - How Many Neurons Does it Take to Approximate the Maximum? [10.995895410470279]
我々は、$d$入力以上の最大関数を近似するために必要なニューラルネットワークのサイズについて検討する。
様々な深さにまたがる近似に必要な幅について, 新たな下限と上限を提供する。
論文 参考訳(メタデータ) (2023-07-18T12:47:35Z) - Polynomial Width is Sufficient for Set Representation with
High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。
a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文 参考訳(メタデータ) (2023-07-08T16:00:59Z) - Data Topology-Dependent Upper Bounds of Neural Network Widths [52.58441144171022]
まず、3層ニューラルネットワークがコンパクトな集合上のインジケータ関数を近似するように設計可能であることを示す。
その後、これは単純複体へと拡張され、その位相構造に基づいて幅の上界が導かれる。
トポロジカルアプローチを用いて3層ReLUネットワークの普遍近似特性を証明した。
論文 参考訳(メタデータ) (2023-05-25T14:17:15Z) - Lower Bounds on the Depth of Integral ReLU Neural Networks via Lattice
Polytopes [3.0079490585515343]
我々は、$lceillog_(n)rceil$ hidden layerが$n$の最大値を計算するために本当に必要であることを示す。
この結果は、ニューラルネットワークと熱帯の幾何学によるニュートンポリトープの双対性に基づいている。
論文 参考訳(メタデータ) (2023-02-24T10:14:53Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z) - Global Convergence of Deep Networks with One Wide Layer Followed by
Pyramidal Topology [28.49901662584467]
深層ネットワークの場合、入力層に従えば1層$N$の幅が確保され、同様の保証が保証される。
残りの層は全て一定の幅を持つことができ、ピラミッドの位相を形成する。
論文 参考訳(メタデータ) (2020-02-18T20:21:27Z) - Global Convergence of Frank Wolfe on One Hidden Layer Networks [121.96696298666014]
隠れた1つのニューラルネットワークをトレーニングする際、Frank Wolfeアルゴリズムに対してグローバル収束境界を導出する。
ReLUアクティベーション関数を用い、サンプルデータセット上のトラクタブルプレコンディショニング仮定の下では、解をインクリメンタルに形成する線形最小化オラクルを第2次コーンプログラムとして明示的に解くことができる。
論文 参考訳(メタデータ) (2020-02-06T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。