論文の概要: ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models
- arxiv url: http://arxiv.org/abs/2305.15598v3
- Date: Wed, 26 Jun 2024 16:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 20:03:37.806020
- Title: ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models
- Title(参考訳): 線形層を持つReLUニューラルネットワークは、単一および複数インデックスモデルに向けてバイアスされる
- Authors: Suzanna Parkinson, Greg Ongie, Rebecca Willett,
- Abstract要約: この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
- 参考スコア(独自算出の注目度): 9.96121040675476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks often operate in the overparameterized regime, in which there are far more parameters than training samples, allowing the training data to be fit perfectly. That is, training the network effectively learns an interpolating function, and properties of the interpolant affect predictions the network will make on new samples. This manuscript explores how properties of such functions learned by neural networks of depth greater than two layers. Our framework considers a family of networks of varying depths that all have the same capacity but different representation costs. The representation cost of a function induced by a neural network architecture is the minimum sum of squared weights needed for the network to represent the function; it reflects the function space bias associated with the architecture. Our results show that adding additional linear layers to the input side of a shallow ReLU network yields a representation cost favoring functions with low mixed variation - that is, it has limited variation in directions orthogonal to a low-dimensional subspace and can be well approximated by a single- or multi-index model. Such functions may be represented by the composition of a function with low two-layer representation cost and a low-rank linear operator. Our experiments confirm this behavior in standard network training regimes. They additionally show that linear layers can improve generalization and the learned network is well-aligned with the true latent low-dimensional linear subspace when data is generated using a multi-index model.
- Abstract(参考訳): ニューラルネットワークは、トレーニングサンプルよりもはるかに多くのパラメータがあり、トレーニングデータが完全に適合する、過度にパラメータ化された状態で運用されることが多い。
すなわち、ネットワークのトレーニングは、補間関数を効果的に学習し、補間関数の特性は、ネットワークが新しいサンプルで行う予測に影響を及ぼす。
この原稿は、2層以上の深さのニューラルネットワークによって学習されたそのような関数の性質について考察する。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
ニューラルネットワークアーキテクチャによって誘導される関数の表現コストは、関数を表現するのに必要な2乗重みの最小和である。
この結果から,浅いReLUネットワークの入力側に線形層を追加することにより,低次元部分空間に直交する方向が限定的であり,一次元あるいは多次元のモデルでよく近似できるという,混合変動の少ない関数を優先する表現コストが得られることがわかった。
そのような関数は、低二層表現コストと低ランク線形作用素の合成によって表される。
我々の実験は、標準的なネットワークトレーニングシステムにおいて、この挙動を確認した。
さらに、線形層は一般化を改善することができ、学習されたネットワークは、マルチインデックスモデルを用いてデータが生成されるとき、真の潜在低次元線形部分空間とよく一致していることを示す。
関連論文リスト
- Half-Space Feature Learning in Neural Networks [2.3249139042158853]
現在、ニューラルネットワークの特徴学習には2つの極端な視点がある。
どちらの解釈も、新しい観点からは正しいとは考えにくい。
私たちはこの代替解釈を使って、Deep Linearly Gated Network (DLGN)と呼ばれるモデルを動かす。
論文 参考訳(メタデータ) (2024-04-05T12:03:19Z) - Hidden Classification Layers: Enhancing linear separability between
classes in neural networks layers [0.0]
トレーニング手法の深層ネットワーク性能への影響について検討する。
本稿では,全てのネットワークレイヤの出力を含むエラー関数を誘導するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-09T10:52:49Z) - Exploring the Approximation Capabilities of Multiplicative Neural
Networks for Smooth Functions [9.936974568429173]
対象関数のクラスは、一般化帯域制限関数とソボレフ型球である。
以上の結果から、乗法ニューラルネットワークは、これらの関数をはるかに少ない層とニューロンで近似できることを示した。
これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-01-11T17:57:33Z) - The Role of Linear Layers in Nonlinear Interpolating Networks [13.25706838589123]
我々のフレームワークは、すべて同じキャパシティを持つが、暗黙的に定義された表現コストを持つ、様々な深さのネットワークのファミリーを考察する。
ニューラルネットワークアーキテクチャによって誘導される関数の表現コストは、関数を表現するためにネットワークに必要な2乗重みの最小和である。
この結果から,ReLUネットワークに線形層を追加することで,ReLUユニットのアライメントとスパシティの複雑な相互作用を反映した表現コストが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-02T02:33:24Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文 参考訳(メタデータ) (2021-07-03T17:54:27Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。