論文の概要: Do Wide and Deep Networks Learn the Same Things? Uncovering How Neural
Network Representations Vary with Width and Depth
- arxiv url: http://arxiv.org/abs/2010.15327v2
- Date: Sat, 10 Apr 2021 01:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:10:13.700345
- Title: Do Wide and Deep Networks Learn the Same Things? Uncovering How Neural
Network Representations Vary with Width and Depth
- Title(参考訳): 広く深いネットワークは同じことを学べるのか?
幅と深さでニューラルネットワークを表現する方法
- Authors: Thao Nguyen, Maithra Raghu, Simon Kornblith
- Abstract要約: モデル隠れ表現の深さと幅の変化がどう影響するかを考察する。
より大きなキャパシティ(より広範またはより深い)モデルの隠れ表現に特徴的なブロック構造が見つかる。
この発見は、異なるモデルによって学習された特徴に重要な影響をもたらす。
- 参考スコア(独自算出の注目度): 32.757486048358416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key factor in the success of deep neural networks is the ability to scale
models to improve performance by varying the architecture depth and width. This
simple property of neural network design has resulted in highly effective
architectures for a variety of tasks. Nevertheless, there is limited
understanding of effects of depth and width on the learned representations. In
this paper, we study this fundamental question. We begin by investigating how
varying depth and width affects model hidden representations, finding a
characteristic block structure in the hidden representations of larger capacity
(wider or deeper) models. We demonstrate that this block structure arises when
model capacity is large relative to the size of the training set, and is
indicative of the underlying layers preserving and propagating the dominant
principal component of their representations. This discovery has important
ramifications for features learned by different models, namely, representations
outside the block structure are often similar across architectures with varying
widths and depths, but the block structure is unique to each model. We analyze
the output predictions of different model architectures, finding that even when
the overall accuracy is similar, wide and deep models exhibit distinctive error
patterns and variations across classes.
- Abstract(参考訳): ディープニューラルネットワークの成功の鍵となる要因は、アーキテクチャの深さと幅を変えて、モデルを拡張してパフォーマンスを向上させる能力である。
ニューラルネットワーク設計のこの単純な性質は、様々なタスクに対して非常に効果的なアーキテクチャをもたらす。
それでも、学習した表現に対する深さと幅の影響は限定的に理解されている。
本稿では,この基本的問題について考察する。
まず,大容量または大深度モデルの隠蔽表現における特徴的ブロック構造がモデル隠れ表現に与える影響について検討する。
このブロック構造は,モデル容量がトレーニングセットのサイズに対して大きい場合に発生し,それらの表現の主成分を保存・伝播する基盤層を示す。
この発見は、異なるモデルによって学習された特徴、すなわちブロック構造外の表現は、幅と深さの異なるアーキテクチャ間でよく似ているが、ブロック構造は各モデルに固有のものである。
異なるモデルアーキテクチャの出力予測を解析し、全体的な精度が似ていても、広範かつ深いモデルでは、クラス毎に固有のエラーパターンとバリエーションが示されることを示した。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - When Representations Align: Universality in Representation Learning Dynamics [8.188549368578704]
我々は、入力から隠れ表現への符号化マップと、表現から出力への復号マップが任意の滑らかな関数であるという仮定の下で、表現学習の効果的な理論を導出する。
実験により,活性化関数とアーキテクチャの異なる深層ネットワークにおける表現学習力学の側面を効果的に記述することを示した。
論文 参考訳(メタデータ) (2024-02-14T12:48:17Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Contrasting random and learned features in deep Bayesian linear
regression [12.234742322758418]
本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。
すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
論文 参考訳(メタデータ) (2022-03-01T15:51:29Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z) - Data-driven effective model shows a liquid-like deep learning [2.0711789781518752]
バイナリシナプスの深いネットワークの状況は、まだ分かっていない。
本稿では,高次元重み空間の最小構造モデルを直接構築することにより,統計力学の枠組みを提案する。
我々のデータ駆動モデルは、高次元の重み空間においてディープラーニングが不合理に有効である理由に関する統計力学的な知見を提供する。
論文 参考訳(メタデータ) (2020-07-16T04:02:48Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。