論文の概要: Better Neural Network Expressivity: Subdividing the Simplex
- arxiv url: http://arxiv.org/abs/2505.14338v1
- Date: Tue, 20 May 2025 13:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.253474
- Title: Better Neural Network Expressivity: Subdividing the Simplex
- Title(参考訳): ニューラルネットワークの表現性が向上する - Simplexの分割
- Authors: Egor Bakaev, Florestan Brunck, Christoph Hertrich, Jack Stade, Amir Yehudayoff,
- Abstract要約: 2つの隠蔽層を持つReLUニューラルネットワークは、5つの入力の最大関数を正確に表現できることを示す。
我々の構成は、十進分数を持つReLUネットワークの特別な場合において、Averkov, Hojny, and Merkert (ICLR'25) の下界の $lceillog_3(n)rceil$ にほぼ一致する。
- 参考スコア(独自算出の注目度): 4.5030426578394795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the expressivity of ReLU neural networks with a focus on their depth. A sequence of previous works showed that $\lceil \log_2(n+1) \rceil$ hidden layers are sufficient to compute all continuous piecewise linear (CPWL) functions on $\mathbb{R}^n$. Hertrich, Basu, Di Summa, and Skutella (NeurIPS'21) conjectured that this result is optimal in the sense that there are CPWL functions on $\mathbb{R}^n$, like the maximum function, that require this depth. We disprove the conjecture and show that $\lceil\log_3(n-1)\rceil+1$ hidden layers are sufficient to compute all CPWL functions on $\mathbb{R}^n$. A key step in the proof is that ReLU neural networks with two hidden layers can exactly represent the maximum function of five inputs. More generally, we show that $\lceil\log_3(n-2)\rceil+1$ hidden layers are sufficient to compute the maximum of $n\geq 4$ numbers. Our constructions almost match the $\lceil\log_3(n)\rceil$ lower bound of Averkov, Hojny, and Merkert (ICLR'25) in the special case of ReLU networks with weights that are decimal fractions. The constructions have a geometric interpretation via polyhedral subdivisions of the simplex into ``easier'' polytopes.
- Abstract(参考訳): 本研究では,ReLUニューラルネットワークの深度に着目した表現性について検討する。
以前の研究の列は、$\lceil \log_2(n+1) \rceil$隠された層は、$\mathbb{R}^n$上のすべての連続ピースワイド線型(CPWL)関数を計算するのに十分であることを示した。
Hertrich, Basu, Di Summa, and Skutella (NeurIPS'21) は、この結果は、この深さを必要とする最大関数と同様に$\mathbb{R}^n$ 上の CPWL 関数が存在するという意味で最適であると予想した。
この予想を否定し、$\lceil\log_3(n-1)\rceil+1$隠れた層が$\mathbb{R}^n$上のすべてのCPWL関数を計算するのに十分であることを示す。
この証明の重要なステップは、2つの隠れた層を持つReLUニューラルネットワークが5つの入力の最大関数を正確に表現できることである。
より一般的には、$\lceil\log_3(n-2)\rceil+1$ hidden layer が$n\geq 4$ の最大値を計算するのに十分であることを示す。
我々の構成は、十進分数であるReLUネットワークの特別な場合において、Averkov, Hojny, and Merkert (ICLR'25) の下界の$\lceil\log_3(n)\rceil$ にほぼ一致する。
これらの構成は、単純体の多面体部分分割を通して `easier'' のポリトープへの幾何学的解釈を持つ。
関連論文リスト
- On the Expressiveness of Rational ReLU Neural Networks With Bounded Depth [0.0]
重みが十進分数であるReLUネットワークにおいて、$F_n$は少なくとも$lceillog_3 (n+1)rceil隠蔽層を持つネットワークでしか表現できないことを示す。
実用的に関係のあるReLUネットワークの深さの非定常下界を初めて提供する。
論文 参考訳(メタデータ) (2025-02-10T09:26:35Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Optimal and Efficient Algorithms for Decentralized Online Convex Optimization [51.00357162913229]
分散オンライン凸最適化(D-OCO)は、局所計算と通信のみを用いて、グローバルな損失関数の列を最小化するように設計されている。
我々は,凸関数と強凸関数の残差を$tildeO(nrho-1/4sqrtT)$と$tildeO(nrho-1/2log T)$に削減できる新しいD-OCOアルゴリズムを開発した。
我々の分析によると、射影自由多様体は$O(nT3/4)$と$O(n)を達成できる。
論文 参考訳(メタデータ) (2024-02-14T13:44:16Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文 参考訳(メタデータ) (2023-09-19T14:20:55Z) - Shallow neural network representation of polynomials [91.3755431537592]
d+1+sum_r=2Rbinomr+d-1d-1[binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1]
論文 参考訳(メタデータ) (2022-08-17T08:14:52Z) - Sharp Representation Theorems for ReLU Networks with Precise Dependence
on Depth [26.87238691716307]
D$ReLU層を持つニューラルネットワークに対して,2乗損失下でのシャープな表現結果を証明した。
その結果、より深いネットワークはよりスムーズな関数を表現するのに優れているという仮説が実証された。
論文 参考訳(メタデータ) (2020-06-07T05:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。