論文の概要: On Measuring Excess Capacity in Neural Networks
- arxiv url: http://arxiv.org/abs/2202.08070v1
- Date: Wed, 16 Feb 2022 13:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:26:59.796072
- Title: On Measuring Excess Capacity in Neural Networks
- Title(参考訳): ニューラルネットワークにおける余剰容量の測定について
- Authors: Florian Graf, Sebastian Zeng, Marc Niethammer, Roland Kwitt
- Abstract要約: 教師付き分類の文脈におけるディープネットワークの過剰容量について検討する。
関数合成と加算に対応するために、既存の一般化を拡張します。
これらの量は驚くほど小さく保たれることを示す。
- 参考スコア(独自算出の注目度): 21.264212547591747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the excess capacity of deep networks in the context of supervised
classification. That is, given a capacity measure of the underlying hypothesis
class -- in our case, Rademacher complexity -- how much can we (a-priori)
constrain this class while maintaining an empirical error comparable to the
unconstrained setting. To assess excess capacity in modern architectures, we
first extend an existing generalization bound to accommodate function
composition and addition, as well as the specific structure of convolutions.
This then facilitates studying residual networks through the lens of the
accompanying capacity measure. The key quantities driving this measure are the
Lipschitz constants of the layers and the (2,1) group norm distance to the
initializations of the convolution weights. We show that these quantities (1)
can be kept surprisingly small and, (2) since excess capacity unexpectedly
increases with task difficulty, this points towards an unnecessarily large
capacity of unconstrained models.
- Abstract(参考訳): 教師付き分類の文脈におけるディープネットワークの過剰容量について検討する。
つまり、基礎となる仮説クラス(我々の場合、Rademacher複雑性)のキャパシティーを考慮に入れれば、制約のない設定に匹敵する経験的エラーを維持しながら、このクラスをどの程度(a-priori)制約することができるのか。
近代建築における余剰能力を評価するため、我々はまず、関数の構成と加算、および畳み込みの特定の構造に対応するために、既存の一般化を拡張した。
これにより、付随容量測定器のレンズを通して残留ネットワークの研究が容易になる。
この測度を駆動する主要な量は、層のリプシッツ定数と(2,1)群のノルム距離と畳み込み重みの初期化である。
これらの量(1)を驚くほど小さく抑えることができ、(2)過剰な容量はタスクの難易度によって予期しないほど増加するため、不必要に大量の訓練されていないモデルの容量に向ける。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [8.593775080183708]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Polynomially Over-Parameterized Convolutional Neural Networks Contain
Structured Strong Winning Lottery Tickets [4.020829863982153]
十分に小さなネットワークを近似できる構造化ニューラルワークの存在を実証する。
この結果は、Strong Lottery Ticket仮説の周りの最初の部分指数境界を与える。
論文 参考訳(メタデータ) (2023-11-16T12:38:45Z) - Tight and Efficient Gradient Bounds for Parameterized Quantum Circuits [7.0379869298557844]
パラメータ化モデルのトレーニングは、下層の損失関数のランドスケープに大きく依存する。
これらの境界は, 損失そのものの分散とともに, VQAモデルの損失景観を研究するために, 効率よく, 古典的に逆向きに推定できることが示される。
この洞察は、局所的およびグローバル的用語からなる観測可能なVQAとして再構成できる生成モデルであるハイブリッド量子生成広告ネットワーク(qGANs)に直接的な意味を持つ。
論文 参考訳(メタデータ) (2023-09-22T07:38:13Z) - Sharper analysis of sparsely activated wide neural networks with
trainable biases [103.85569570164404]
本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Heavy Tails in SGD and Compressibility of Overparametrized Neural
Networks [9.554646174100123]
本研究では, 勾配降下学習アルゴリズムの力学が圧縮性ネットワークの獲得に重要な役割を担っていることを示す。
我々は,ネットワークが「$ell_p$-compressible」であることが保証され,ネットワークサイズが大きくなるにつれて,異なるプルーニング手法の圧縮誤差が任意に小さくなることを示す。
論文 参考訳(メタデータ) (2021-06-07T17:02:59Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。