Fugu-MT 論文翻訳(概要): ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models

論文の概要: ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models

arxiv url: http://arxiv.org/abs/2305.15598v3
Date: Wed, 26 Jun 2024 16:29:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 20:03:37.806020
Title: ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models
Title（参考訳）: 線形層を持つReLUニューラルネットワークは、単一および複数インデックスモデルに向けてバイアスされる
Authors: Suzanna Parkinson, Greg Ongie, Rebecca Willett,
Abstract要約: この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
参考スコア（独自算出の注目度）: 9.96121040675476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural networks often operate in the overparameterized regime, in which there are far more parameters than training samples, allowing the training data to be fit perfectly. That is, training the network effectively learns an interpolating function, and properties of the interpolant affect predictions the network will make on new samples. This manuscript explores how properties of such functions learned by neural networks of depth greater than two layers. Our framework considers a family of networks of varying depths that all have the same capacity but different representation costs. The representation cost of a function induced by a neural network architecture is the minimum sum of squared weights needed for the network to represent the function; it reflects the function space bias associated with the architecture. Our results show that adding additional linear layers to the input side of a shallow ReLU network yields a representation cost favoring functions with low mixed variation - that is, it has limited variation in directions orthogonal to a low-dimensional subspace and can be well approximated by a single- or multi-index model. Such functions may be represented by the composition of a function with low two-layer representation cost and a low-rank linear operator. Our experiments confirm this behavior in standard network training regimes. They additionally show that linear layers can improve generalization and the learned network is well-aligned with the true latent low-dimensional linear subspace when data is generated using a multi-index model.
Abstract（参考訳）: ニューラルネットワークは、トレーニングサンプルよりもはるかに多くのパラメータがあり、トレーニングデータが完全に適合する、過度にパラメータ化された状態で運用されることが多い。すなわち、ネットワークのトレーニングは、補間関数を効果的に学習し、補間関数の特性は、ネットワークが新しいサンプルで行う予測に影響を及ぼす。この原稿は、2層以上の深さのニューラルネットワークによって学習されたそのような関数の性質について考察する。我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。ニューラルネットワークアーキテクチャによって誘導される関数の表現コストは、関数を表現するのに必要な2乗重みの最小和である。この結果から,浅いReLUネットワークの入力側に線形層を追加することにより,低次元部分空間に直交する方向が限定的であり,一次元あるいは多次元のモデルでよく近似できるという,混合変動の少ない関数を優先する表現コストが得られることがわかった。そのような関数は、低二層表現コストと低ランク線形作用素の合成によって表される。我々の実験は、標準的なネットワークトレーニングシステムにおいて、この挙動を確認した。さらに、線形層は一般化を改善することができ、学習されたネットワークは、マルチインデックスモデルを用いてデータが生成されるとき、真の潜在低次元線形部分空間とよく一致していることを示す。

関連論文リスト

Half-Space Feature Learning in Neural Networks [2.3249139042158853]
現在、ニューラルネットワークの特徴学習には2つの極端な視点がある。どちらの解釈も、新しい観点からは正しいとは考えにくい。私たちはこの代替解釈を使って、Deep Linearly Gated Network (DLGN)と呼ばれるモデルを動かす。
論文参考訳（メタデータ） (2024-04-05T12:03:19Z)
Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文参考訳（メタデータ） (2024-02-21T18:35:27Z)
Hidden Classification Layers: Enhancing linear separability between classes in neural networks layers [0.0]
トレーニング手法の深層ネットワーク性能への影響について検討する。本稿では,全てのネットワークレイヤの出力を含むエラー関数を誘導するニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-06-09T10:52:49Z)
Exploring the Approximation Capabilities of Multiplicative Neural Networks for Smooth Functions [9.936974568429173]
対象関数のクラスは、一般化帯域制限関数とソボレフ型球である。以上の結果から、乗法ニューラルネットワークは、これらの関数をはるかに少ない層とニューロンで近似できることを示した。これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。
論文参考訳（メタデータ） (2023-01-11T17:57:33Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
The Role of Linear Layers in Nonlinear Interpolating Networks [13.25706838589123]
我々のフレームワークは、すべて同じキャパシティを持つが、暗黙的に定義された表現コストを持つ、様々な深さのネットワークのファミリーを考察する。ニューラルネットワークアーキテクチャによって誘導される関数の表現コストは、関数を表現するためにネットワークに必要な2乗重みの最小和である。この結果から,ReLUネットワークに線形層を追加することで,ReLUユニットのアライメントとスパシティの複雑な相互作用を反映した表現コストが得られることがわかった。
論文参考訳（メタデータ） (2022-02-02T02:33:24Z)
Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文参考訳（メタデータ） (2021-12-04T18:07:47Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文参考訳（メタデータ） (2021-07-31T10:25:26Z)
Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文参考訳（メタデータ） (2021-07-03T17:54:27Z)
Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文参考訳（メタデータ） (2021-06-07T10:18:54Z)
Reduced Order Modeling using Shallow ReLU Networks with Grassmann Layers [0.0]
本稿では,構造化ニューラルネットワークを用いた方程式系の非線形モデル低減法を提案する。本稿では,ニューラルネットワークの近似に適さないデータスカース方式の科学的問題に対して,本手法が適用可能であることを示す。
論文参考訳（メタデータ） (2020-12-17T21:35:06Z)
Dual-constrained Deep Semi-Supervised Coupled Factorization Network with Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文参考訳（メタデータ） (2020-09-08T13:10:21Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文参考訳（メタデータ） (2020-06-29T17:59:26Z)
Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-04-06T15:51:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。