論文の概要: On Measuring Excess Capacity in Neural Networks
- arxiv url: http://arxiv.org/abs/2202.08070v1
- Date: Wed, 16 Feb 2022 13:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:26:59.796072
- Title: On Measuring Excess Capacity in Neural Networks
- Title(参考訳): ニューラルネットワークにおける余剰容量の測定について
- Authors: Florian Graf, Sebastian Zeng, Marc Niethammer, Roland Kwitt
- Abstract要約: 教師付き分類の文脈におけるディープネットワークの過剰容量について検討する。
関数合成と加算に対応するために、既存の一般化を拡張します。
これらの量は驚くほど小さく保たれることを示す。
- 参考スコア(独自算出の注目度): 21.264212547591747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the excess capacity of deep networks in the context of supervised
classification. That is, given a capacity measure of the underlying hypothesis
class -- in our case, Rademacher complexity -- how much can we (a-priori)
constrain this class while maintaining an empirical error comparable to the
unconstrained setting. To assess excess capacity in modern architectures, we
first extend an existing generalization bound to accommodate function
composition and addition, as well as the specific structure of convolutions.
This then facilitates studying residual networks through the lens of the
accompanying capacity measure. The key quantities driving this measure are the
Lipschitz constants of the layers and the (2,1) group norm distance to the
initializations of the convolution weights. We show that these quantities (1)
can be kept surprisingly small and, (2) since excess capacity unexpectedly
increases with task difficulty, this points towards an unnecessarily large
capacity of unconstrained models.
- Abstract(参考訳): 教師付き分類の文脈におけるディープネットワークの過剰容量について検討する。
つまり、基礎となる仮説クラス(我々の場合、Rademacher複雑性)のキャパシティーを考慮に入れれば、制約のない設定に匹敵する経験的エラーを維持しながら、このクラスをどの程度(a-priori)制約することができるのか。
近代建築における余剰能力を評価するため、我々はまず、関数の構成と加算、および畳み込みの特定の構造に対応するために、既存の一般化を拡張した。
これにより、付随容量測定器のレンズを通して残留ネットワークの研究が容易になる。
この測度を駆動する主要な量は、層のリプシッツ定数と(2,1)群のノルム距離と畳み込み重みの初期化である。
これらの量(1)を驚くほど小さく抑えることができ、(2)過剰な容量はタスクの難易度によって予期しないほど増加するため、不必要に大量の訓練されていないモデルの容量に向ける。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Polynomially Over-Parameterized Convolutional Neural Networks Contain
Structured Strong Winning Lottery Tickets [4.020829863982153]
十分に小さなネットワークを近似できる構造化ニューラルワークの存在を実証する。
この結果は、Strong Lottery Ticket仮説の周りの最初の部分指数境界を与える。
論文 参考訳(メタデータ) (2023-11-16T12:38:45Z) - How Sparse Can We Prune A Deep Network: A Fundamental Limit Viewpoint [3.4396642896512977]
ネットワークプルーニングは、ディープニューラルネットワークの記憶と計算の負担を軽減するために一般的に使用される尺度である。
我々は、急激な位相遷移点、すなわちプルーニング比の基本極限を特徴づけるために、第一原理的アプローチをとる。
我々は,大規模かつ非正のヘッセン行列を推定する際の課題に対処するために,効率的な対策を提供する。
論文 参考訳(メタデータ) (2023-06-09T12:39:41Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Heavy Tails in SGD and Compressibility of Overparametrized Neural
Networks [9.554646174100123]
本研究では, 勾配降下学習アルゴリズムの力学が圧縮性ネットワークの獲得に重要な役割を担っていることを示す。
我々は,ネットワークが「$ell_p$-compressible」であることが保証され,ネットワークサイズが大きくなるにつれて,異なるプルーニング手法の圧縮誤差が任意に小さくなることを示す。
論文 参考訳(メタデータ) (2021-06-07T17:02:59Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。