論文の概要: Nonlinear Advantage: Trained Networks Might Not Be As Complex as You
Think
- arxiv url: http://arxiv.org/abs/2211.17180v2
- Date: Thu, 1 Jun 2023 13:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 01:01:24.772404
- Title: Nonlinear Advantage: Trained Networks Might Not Be As Complex as You
Think
- Title(参考訳): 非線形アドバンテージ:学習ネットワークは複雑ではないかもしれない
- Authors: Christian H.X. Ali Mehmeti-G\"opel, Jan Disselhoff
- Abstract要約: 性能崩壊前の線形性に対するネットワーク機能をいかに単純化できるかを考察する。
訓練後, 高い性能を維持しつつ, かなりの数の非線形ユニットを線形化できることが判明した。
空間的圧力下では、残りの非線形ユニットは異なる構造に整理され、ほぼ一定の有効深さと幅のコアネットを形成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We perform an empirical study of the behaviour of deep networks when fully
linearizing some of its feature channels through a sparsity prior on the
overall number of nonlinear units in the network. In experiments on image
classification and machine translation tasks, we investigate how much we can
simplify the network function towards linearity before performance collapses.
First, we observe a significant performance gap when reducing nonlinearity in
the network function early on as opposed to late in training, in-line with
recent observations on the time-evolution of the data-dependent NTK. Second, we
find that after training, we are able to linearize a significant number of
nonlinear units while maintaining a high performance, indicating that much of a
network's expressivity remains unused but helps gradient descent in early
stages of training. To characterize the depth of the resulting partially
linearized network, we introduce a measure called average path length,
representing the average number of active nonlinearities encountered along a
path in the network graph. Under sparsity pressure, we find that the remaining
nonlinear units organize into distinct structures, forming core-networks of
near constant effective depth and width, which in turn depend on task
difficulty.
- Abstract(参考訳): 我々は,ネットワーク内の非線形ユニットの総数に先立って,その特徴チャネルの一部を完全に線形化する場合に,ディープネットワークの挙動に関する実証的研究を行う。
画像分類および機械翻訳タスクの実験において,性能低下前の線形性に対するネットワーク機能をどの程度単純化できるかを検討する。
まず, ネットワーク機能の非線形性を早期に低下させる場合, トレーニングの遅れに対して, データ依存NTKの時間進化に関する最近の観測をインラインで行う。
第2に,訓練後,高い性能を維持しながらかなりの数の非線形単位を線形化することができ,ネットワークの表現性の多くは未使用のままであるが,トレーニングの初期段階では勾配降下に寄与することを示す。
得られた部分線形化ネットワークの深さを特徴付けるために,ネットワークグラフの経路に沿って発生するアクティブ非線形の平均数を表す平均経路長という尺度を導入する。
スパルシティ圧力下では、残りの非線形ユニットは異なる構造に組織され、ほぼ一定の有効深さと幅のコアネットワークを形成し、それはタスクの難易度に依存する。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Understanding Deep Neural Networks via Linear Separability of Hidden
Layers [68.23950220548417]
まず,ミンコフスキー差分に基づく線形分離性尺度(MD-LSMs)を提案し,2点集合の線形分離性度を評価する。
隠れ層出力の線形分離度とネットワークトレーニング性能との間には同期性があることを実証する。
論文 参考訳(メタデータ) (2023-07-26T05:29:29Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Activation function design for deep networks: linearity and effective
initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文 参考訳(メタデータ) (2021-05-17T11:30:46Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - An analytic theory of shallow networks dynamics for hinge loss
classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。
我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。
これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文 参考訳(メタデータ) (2020-06-19T16:25:29Z) - Ill-Posedness and Optimization Geometry for Nonlinear Neural Network
Training [4.7210697296108926]
ネットワーク構築における非線形活性化関数は、損失景観の定常点の分類において重要な役割を担っていることを示す。
浅密度ネットワークの場合、非線形活性化関数は大域ミニマ近傍のヘッセンヌル空間を決定する。
これらの結果を高密度ニューラルネットワークに拡張することにより、最終活性化関数が定常点の分類において重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2020-02-07T16:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。