Fugu-MT 論文翻訳(概要): Better Neural Network Expressivity: Subdividing the Simplex

論文の概要: Better Neural Network Expressivity: Subdividing the Simplex

arxiv url: http://arxiv.org/abs/2505.14338v1
Date: Tue, 20 May 2025 13:23:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.253474
Title: Better Neural Network Expressivity: Subdividing the Simplex
Title（参考訳）: ニューラルネットワークの表現性が向上する - Simplexの分割
Authors: Egor Bakaev, Florestan Brunck, Christoph Hertrich, Jack Stade, Amir Yehudayoff,
Abstract要約: 2つの隠蔽層を持つReLUニューラルネットワークは、5つの入力の最大関数を正確に表現できることを示す。我々の構成は、十進分数を持つReLUネットワークの特別な場合において、Averkov, Hojny, and Merkert (ICLR'25) の下界の $lceillog_3(n)rceil$ にほぼ一致する。
参考スコア（独自算出の注目度）: 4.5030426578394795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work studies the expressivity of ReLU neural networks with a focus on their depth. A sequence of previous works showed that $\lceil \log_2(n+1) \rceil$ hidden layers are sufficient to compute all continuous piecewise linear (CPWL) functions on $\mathbb{R}^n$. Hertrich, Basu, Di Summa, and Skutella (NeurIPS'21) conjectured that this result is optimal in the sense that there are CPWL functions on $\mathbb{R}^n$, like the maximum function, that require this depth. We disprove the conjecture and show that $\lceil\log_3(n-1)\rceil+1$ hidden layers are sufficient to compute all CPWL functions on $\mathbb{R}^n$. A key step in the proof is that ReLU neural networks with two hidden layers can exactly represent the maximum function of five inputs. More generally, we show that $\lceil\log_3(n-2)\rceil+1$ hidden layers are sufficient to compute the maximum of $n\geq 4$ numbers. Our constructions almost match the $\lceil\log_3(n)\rceil$ lower bound of Averkov, Hojny, and Merkert (ICLR'25) in the special case of ReLU networks with weights that are decimal fractions. The constructions have a geometric interpretation via polyhedral subdivisions of the simplex into ``easier'' polytopes.
Abstract（参考訳）: 本研究では,ReLUニューラルネットワークの深度に着目した表現性について検討する。以前の研究の列は、$\lceil \log_2(n+1) \rceil$隠された層は、$\mathbb{R}^n$上のすべての連続ピースワイド線型(CPWL)関数を計算するのに十分であることを示した。 Hertrich, Basu, Di Summa, and Skutella (NeurIPS'21) は、この結果は、この深さを必要とする最大関数と同様に$\mathbb{R}^n$ 上の CPWL 関数が存在するという意味で最適であると予想した。この予想を否定し、$\lceil\log_3(n-1)\rceil+1$隠れた層が$\mathbb{R}^n$上のすべてのCPWL関数を計算するのに十分であることを示す。この証明の重要なステップは、2つの隠れた層を持つReLUニューラルネットワークが5つの入力の最大関数を正確に表現できることである。より一般的には、$\lceil\log_3(n-2)\rceil+1$ hidden layer が$n\geq 4$ の最大値を計算するのに十分であることを示す。我々の構成は、十進分数であるReLUネットワークの特別な場合において、Averkov, Hojny, and Merkert (ICLR'25) の下界の$\lceil\log_3(n)\rceil$ にほぼ一致する。これらの構成は、単純体の多面体部分分割を通して `easier'' のポリトープへの幾何学的解釈を持つ。

関連論文リスト

On the Expressiveness of Rational ReLU Neural Networks With Bounded Depth [0.0]
重みが十進分数であるReLUネットワークにおいて、$F_n$は少なくとも$lceillog_3 (n+1)rceil隠蔽層を持つネットワークでしか表現できないことを示す。実用的に関係のあるReLUネットワークの深さの非定常下界を初めて提供する。
論文参考訳（メタデータ） (2025-02-10T09:26:35Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。 SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Optimal and Efficient Algorithms for Decentralized Online Convex Optimization [51.00357162913229]
分散オンライン凸最適化(D-OCO)は、局所計算と通信のみを用いて、グローバルな損失関数の列を最小化するように設計されている。我々は,凸関数と強凸関数の残差を$tildeO(nrho-1/4sqrtT)$と$tildeO(nrho-1/2log T)$に削減できる新しいD-OCOアルゴリズムを開発した。我々の分析によると、射影自由多様体は$O(nT3/4)$と$O(n)を達成できる。
論文参考訳（メタデータ） (2024-02-14T13:44:16Z)
Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文参考訳（メタデータ） (2023-11-23T02:19:32Z)
Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文参考訳（メタデータ） (2023-09-19T14:20:55Z)
Polynomial Width is Sufficient for Set Representation with High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。 a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文参考訳（メタデータ） (2023-07-08T16:00:59Z)
Shallow neural network representation of polynomials [91.3755431537592]
d+1+sum_r=2Rbinomr+d-1d-1[binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1]
論文参考訳（メタデータ） (2022-08-17T08:14:52Z)
On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文参考訳（メタデータ） (2021-08-12T10:22:24Z)
Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文参考訳（メタデータ） (2020-07-09T07:09:28Z)
Sharp Representation Theorems for ReLU Networks with Precise Dependence on Depth [26.87238691716307]
D$ReLU層を持つニューラルネットワークに対して,2乗損失下でのシャープな表現結果を証明した。その結果、より深いネットワークはよりスムーズな関数を表現するのに優れているという仮説が実証された。
論文参考訳（メタデータ） (2020-06-07T05:25:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。