論文の概要: Sharp Rate of Convergence for Deep Neural Network Classifiers under the
Teacher-Student Setting
- arxiv url: http://arxiv.org/abs/2001.06892v2
- Date: Sat, 1 Feb 2020 04:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 10:02:27.493781
- Title: Sharp Rate of Convergence for Deep Neural Network Classifiers under the
Teacher-Student Setting
- Title(参考訳): 教師・教師環境下における深層ニューラルネットワーク分類器の収束率
- Authors: Tianyang Hu, Zuofeng Shang, Guang Cheng
- Abstract要約: ニューラルネットワークは、コンピュータビジョンの顔画像のような大規模な高次元データを扱う。
本稿では,高次元分類におけるこの経験的成功を理解するために,過剰リスクの収束率を導出する。
- 参考スコア(独自算出の注目度): 20.198224461384854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifiers built with neural networks handle large-scale high dimensional
data, such as facial images from computer vision, extremely well while
traditional statistical methods often fail miserably. In this paper, we attempt
to understand this empirical success in high dimensional classification by
deriving the convergence rates of excess risk. In particular, a teacher-student
framework is proposed that assumes the Bayes classifier to be expressed as ReLU
neural networks. In this setup, we obtain a sharp rate of convergence, i.e.,
$\tilde{O}_d(n^{-2/3})$, for classifiers trained using either 0-1 loss or hinge
loss. This rate can be further improved to $\tilde{O}_d(n^{-1})$ when the data
distribution is separable. Here, $n$ denotes the sample size. An interesting
observation is that the data dimension only contributes to the $\log(n)$ term
in the above rates. This may provide one theoretical explanation for the
empirical successes of deep neural networks in high dimensional classification,
particularly for structured data.
- Abstract(参考訳): ニューラルネットワークで構築された分類器は、コンピュータビジョンによる顔画像のような大規模な高次元データを処理しているが、従来の統計手法は悲惨に失敗することが多い。
本稿では,高次元分類におけるこの経験的成功を理解するために,過剰リスクの収束率を導出する。
特に、ベイズ分類器をReLUニューラルネットワークとして表現することを前提とした教師学生フレームワークが提案されている。
この設定では、0-1損失またはヒンジ損失のいずれかを用いて訓練された分類器に対して、鋭い収束率、すなわち$\tilde{o}_d(n^{-2/3})$を得る。
この値は、データ分布が分離可能であれば$\tilde{O}_d(n^{-1})$にさらに改善することができる。
ここで、$n$ はサンプルサイズを表す。
興味深い観察は、データ次元が上記のレートで$\log(n)$項にしか寄与しないことである。
これは、深層ニューラルネットワークの高次元分類における経験的成功、特に構造化データに対する一つの理論的説明を提供するかもしれない。
関連論文リスト
- On Excess Risk Convergence Rates of Neural Network Classifiers [8.329456268842227]
本稿では,ニューラルネットワークを用いた2値分類におけるプラグイン分類器の性能を,その過大なリスクによって測定した。
ニューラルネットワークの推定と近似特性を分析し,次元自由で均一な収束率を求める。
論文 参考訳(メタデータ) (2023-09-26T17:14:10Z) - Wide and Deep Neural Networks Achieve Optimality for Classification [23.738242876364865]
我々は、最適性を達成するニューラルネットワーク分類器の明示的な集合を同定し、構築する。
特に、最適性を実現するネットワーク構築に使用できる明示的なアクティベーション関数を提供する。
その結果,過度な深度が有害な回帰タスクとは対照的に,分類タスクにディープネットワークを使用することの利点が浮き彫りになった。
論文 参考訳(メタデータ) (2022-04-29T14:27:42Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - OSLNet: Deep Small-Sample Classification with an Orthogonal Softmax
Layer [77.90012156266324]
本稿では,ニューラルネットワークのサブスペースを見つけることを目的としている。
そこで本研究では,Orthogonal Softmax Layer (OSL) を提案する。
実験結果から,提案OSLは4つの小サンプルベンチマークデータセットとの比較に用いた手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-04-20T02:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。