論文の概要: Average Path Length: Sparsification of Nonlinearties Creates
Surprisingly Shallow Networks
- arxiv url: http://arxiv.org/abs/2211.17180v1
- Date: Wed, 30 Nov 2022 17:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:14:03.955353
- Title: Average Path Length: Sparsification of Nonlinearties Creates
Surprisingly Shallow Networks
- Title(参考訳): 平均経路長:驚くほど狭いネットワークを作る非線形性の分散
- Authors: Christian H.X. Ali Mehmeti-G\"opel, Jan Disselhoff
- Abstract要約: 空間的圧力の下では、残りの非線形ユニットは異なる構造にまとめられ、ほぼ一定の有効深さと幅のコアネットを形成する。
精度の急激な崩壊の開始まで, 深度による性能低下の緩やかさを観察する。
トレーニングの後に非線形性を低下させることは、以前よりも優れたパフォーマンスをもたらすが、課題の難しさによっては、容易な問題では消滅する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We perform an empirical study of the behaviour of deep networks when pushing
its activation functions to become fully linear in some of its feature channels
through a sparsity prior on the overall number of nonlinear units in the
network. To measure the depth of the resulting partially linearized network, we
compute the average number of active nonlinearities encountered along a path in
the network graph. In experiments on CNNs with sparsified PReLUs on typical
image classification tasks, we make several observations: Under sparsity
pressure, the remaining nonlinear units organize into distinct structures,
forming core-networks of near constant effective depth and width, which in turn
depend on task difficulty. We consistently observe a slow decay of performance
with depth until the onset of a rapid collapse in accuracy, allowing for
surprisingly shallow networks at moderate losses in accuracy that outperform
base-line networks of similar depth, even after increasing width to a
comparable number of parameters. In terms of training, we observe a nonlinear
advantage: Reducing nonlinearity after training leads to a better performance
than before, in line with previous findings in linearized training, but with a
gap depending on task difficulty that vanishes for easy problems.
- Abstract(参考訳): 本研究では、ネットワーク内の非線形ユニットの総数に先立って、一部の特徴チャネルにおいて、活性化関数が完全に線形になるようにプッシュする際のディープネットワークの挙動に関する実証的研究を行う。
得られた部分線形化ネットワークの深さを測定するために,ネットワークグラフの経路に沿って遭遇するアクティブ非線形性の平均値を算出する。
典型的な画像分類タスクにPRELUを分散させたCNNの実験では, 余剰の非線形ユニットを異なる構造に整理し, ほぼ一定の有効深さと幅のコアネットワークを形成し, タスクの難易度に依存する。
精度の急激な崩壊の開始まで,性能の緩やかな低下を常に観察し,同じ深さのベースラインネットワークよりも高い精度で驚くほど浅さのネットワークが,同じ数のパラメータに幅を拡大した後でも達成できることを示した。
トレーニングの分野では, トレーニング後の非線形性を低下させることは, 以前の線形化トレーニングの結果と一致して, 従来よりも優れた性能をもたらすが, 課題の難易度によっては差がある。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Understanding Deep Neural Networks via Linear Separability of Hidden
Layers [68.23950220548417]
まず,ミンコフスキー差分に基づく線形分離性尺度(MD-LSMs)を提案し,2点集合の線形分離性度を評価する。
隠れ層出力の線形分離度とネットワークトレーニング性能との間には同期性があることを実証する。
論文 参考訳(メタデータ) (2023-07-26T05:29:29Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Activation function design for deep networks: linearity and effective
initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文 参考訳(メタデータ) (2021-05-17T11:30:46Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - An analytic theory of shallow networks dynamics for hinge loss
classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。
我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。
これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文 参考訳(メタデータ) (2020-06-19T16:25:29Z) - Ill-Posedness and Optimization Geometry for Nonlinear Neural Network
Training [4.7210697296108926]
ネットワーク構築における非線形活性化関数は、損失景観の定常点の分類において重要な役割を担っていることを示す。
浅密度ネットワークの場合、非線形活性化関数は大域ミニマ近傍のヘッセンヌル空間を決定する。
これらの結果を高密度ニューラルネットワークに拡張することにより、最終活性化関数が定常点の分類において重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2020-02-07T16:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。