論文の概要: Optimal Convergence Rates of Deep Neural Network Classifiers
- arxiv url: http://arxiv.org/abs/2506.14899v1
- Date: Tue, 17 Jun 2025 18:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.445402
- Title: Optimal Convergence Rates of Deep Neural Network Classifiers
- Title(参考訳): ディープニューラルネットワーク分類器の最適収束率
- Authors: Zihan Zhang, Lei Shi, Ding-Xuan Zhou,
- Abstract要約: Tsybakovノイズ条件下での2値分類問題を$[0,1]d$で検討する。
分類器の過大な0-1リスクに対する最適収束率は$$ left ( frac1n right)fracbetacdot (1wedgebeta)qfracd_*s+1+ (1+frac1s+1)cdotbetacdot (1wedgebeta)q;
- 参考スコア(独自算出の注目度): 25.56187933090708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the binary classification problem on $[0,1]^d$ under the Tsybakov noise condition (with exponent $s \in [0,\infty]$) and the compositional assumption. This assumption requires the conditional class probability function of the data distribution to be the composition of $q+1$ vector-valued multivariate functions, where each component function is either a maximum value function or a H\"{o}lder-$\beta$ smooth function that depends only on $d_*$ of its input variables. Notably, $d_*$ can be significantly smaller than the input dimension $d$. We prove that, under these conditions, the optimal convergence rate for the excess 0-1 risk of classifiers is $$ \left( \frac{1}{n} \right)^{\frac{\beta\cdot(1\wedge\beta)^q}{{\frac{d_*}{s+1}+(1+\frac{1}{s+1})\cdot\beta\cdot(1\wedge\beta)^q}}}\;\;\;, $$ which is independent of the input dimension $d$. Additionally, we demonstrate that ReLU deep neural networks (DNNs) trained with hinge loss can achieve this optimal convergence rate up to a logarithmic factor. This result provides theoretical justification for the excellent performance of ReLU DNNs in practical classification tasks, particularly in high-dimensional settings. The technique used to establish these results extends the oracle inequality presented in our previous work. The generalized approach is of independent interest.
- Abstract(参考訳): 本稿では,Tsybakov雑音条件下での$[0,1]^d$上の二項分類問題とその構成仮定について検討する。
この仮定は、データ分布の条件付きクラス確率関数を$q+1$ベクトル値多重変数関数の合成として要求し、各成分関数は最大値関数か、その入力変数の$d_*$にのみ依存するH\"{o}lder-$\beta$滑らか関数のいずれかである。
特に$d_*$は入力次元$d$よりもかなり小さい。
これらの条件下では、分類器の過大な0-1リスクに対する最適収束率は$$ \left( \frac{1}{n} \right)^{\frac{\beta\cdot(1\wedge\beta)^q}{{\frac{d_*}{s+1}+(1+\frac{1}{s+1})\cdot\beta\cdot(1\wedge\beta)^q}}}\;\;\;
さらに、ヒンジ損失で訓練されたReLUディープニューラルネットワーク(DNN)が、この最適収束率を対数係数まで達成できることを実証した。
この結果は、ReLU DNNの実用的な分類タスク、特に高次元設定における優れた性能を理論的に正当化する。
これらの結果を確立するために用いられるテクニックは、我々の以前の研究で提示されたオラクルの不等式を拡張します。
一般化されたアプローチは独立した関心事である。
関連論文リスト
- On the optimal approximation of Sobolev and Besov functions using deep ReLU neural networks [2.4112990554464235]
我々は、$mathcalO((WL)-2s/d)$が実際にソボレフ埋め込み条件の下で成り立つことを示す。
我々の証明の鍵となるツールは、幅と深さの異なる深部ReLUニューラルネットワークを用いてスパースベクトルを符号化することである。
論文 参考訳(メタデータ) (2024-09-02T02:26:01Z) - Approximation Rates for Shallow ReLU$^k$ Neural Networks on Sobolev Spaces via the Radon Transform [4.096453902709292]
我々は,ReLU$k$アクティベーション関数がソボレフ空間からの関数をいかに効率的に近似できるかという問題を考察する。
例えば、$qleq p$, $pgeq 2$, $s leq k + (d+1)/2$ などである。
論文 参考訳(メタデータ) (2024-08-20T16:43:45Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。
本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文 参考訳(メタデータ) (2020-12-22T12:59:30Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。