論文の概要: Learning sparse features can lead to overfitting in neural networks
- arxiv url: http://arxiv.org/abs/2206.12314v1
- Date: Fri, 24 Jun 2022 14:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 13:01:52.543839
- Title: Learning sparse features can lead to overfitting in neural networks
- Title(参考訳): スパース機能の学習はニューラルネットワークの過度な適合につながる
- Authors: Leonardo Petrini, Francesco Cagnetta, Eric Vanden-Eijnden, Matthieu
Wyart
- Abstract要約: 機能学習は遅延トレーニングよりもパフォーマンスが良くないことを示す。
空間性は異方性データの学習に不可欠であることが知られているが、対象関数が一定あるいは滑らかな場合に有害である。
- 参考スコア(独自算出の注目度): 9.2104922520782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is widely believed that the success of deep networks lies in their ability
to learn a meaningful representation of the features of the data. Yet,
understanding when and how this feature learning improves performance remains a
challenge: for example, it is beneficial for modern architectures trained to
classify images, whereas it is detrimental for fully-connected networks trained
for the same task on the same data. Here we propose an explanation for this
puzzle, by showing that feature learning can perform worse than lazy training
(via random feature kernel or the NTK) as the former can lead to a sparser
neural representation. Although sparsity is known to be essential for learning
anisotropic data, it is detrimental when the target function is constant or
smooth along certain directions of input space. We illustrate this phenomenon
in two settings: (i) regression of Gaussian random functions on the
d-dimensional unit sphere and (ii) classification of benchmark datasets of
images. For (i), we compute the scaling of the generalization error with number
of training points, and show that methods that do not learn features generalize
better, even when the dimension of the input space is large. For (ii), we show
empirically that learning features can indeed lead to sparse and thereby less
smooth representations of the image predictors. This fact is plausibly
responsible for deteriorating the performance, which is known to be correlated
with smoothness along diffeomorphisms.
- Abstract(参考訳): ディープネットワークの成功は、データの特徴の有意義な表現を学ぶ能力にあると広く信じられている。
例えば、イメージを分類する訓練を受けたモダンなアーキテクチャには有益であるが、同じデータ上で同じタスクのために訓練された完全接続されたネットワークには有害である。
ここでは,機能学習が(ランダム特徴カーネルやntkによる)遅延トレーニングよりもパフォーマンスが悪く,前者がスパーサー神経表現に繋がることを示すことで,このパズルの説明を提案する。
空間性は異方性データの学習に不可欠であることが知られているが、対象関数が入力空間の特定の方向に沿って一定あるいは滑らかなときに有害である。
この現象を2つの設定で説明します
(i)d-次元単位球面上のガウス確率関数の回帰と
(ii)画像のベンチマークデータセットの分類。
のために
(i)訓練点数で一般化誤差のスケーリングを計算し,入力空間の次元が大きい場合でも,特徴を学習しない手法の方が一般化することを示す。
のために
(ii)我々は,学習機能によって画像予測器のスリム化やスムース化が促進されることを実証的に示す。
この事実は、微分同型(diffeomorphism)に沿った滑らかさと相関することが知られているパフォーマンスを劣化させる原因である。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - How deep convolutional neural networks lose spatial information with
training [0.7328100870402177]
画像の微分同相性に対する安定性は, 前半の空間プール, 後半のチャネルプールによって達成されることを示す。
ノイズに対する感度の上昇は、ReLUユニットによって修正された後、プール中に発生する摂動騒音によるものである。
論文 参考訳(メタデータ) (2022-10-04T10:21:03Z) - A Theoretical Analysis on Feature Learning in Neural Networks: Emergence
from Inputs and Advantage over Fixed Features [18.321479102352875]
ニューラルネットワークの重要な特徴は、予測に有効な特徴を持つ入力データの表現を学ぶ能力である。
実践的なデータによって動機づけられた学習問題を考察し、そこでは、ラベルが一連のクラス関連パターンによって決定され、それらから入力が生成される。
勾配降下によって訓練されたニューラルネットワークがこれらの問題に成功できることを実証する。
論文 参考訳(メタデータ) (2022-06-03T17:49:38Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Fair Interpretable Learning via Correction Vectors [68.29997072804537]
我々は「補正ベクトル」の学習を中心とした公正表現学習のための新しい枠組みを提案する。
修正は単純に元の特徴にまとめられるので、各特徴に対して明確なペナルティやボーナスとして分析することができる。
このような方法で制約された公平な表現学習問題が性能に影響を与えないことを実験的に示す。
論文 参考訳(メタデータ) (2022-01-17T10:59:33Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Toward Understanding the Feature Learning Process of Self-supervised
Contrastive Learning [43.504548777955854]
本研究では,その特徴学習過程を解析することにより,ニューラルネットワークの特徴表現のコントラスト学習について検討する。
textbfReLUネットワークを用いたコントラスト学習は、適切な拡張が採用されれば、所望のスパース特徴を確実に学習できることを実証する。
論文 参考訳(メタデータ) (2021-05-31T16:42:09Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Malicious Network Traffic Detection via Deep Learning: An Information
Theoretic View [0.0]
本研究では,ホメオモルフィズムがマルウェアのトラフィックデータセットの学習表現に与える影響について検討する。
この結果から,学習された表現の詳細と,すべてのパラメータの多様体上で定義された特定の座標系は,関数近似とは全く異なることが示唆された。
論文 参考訳(メタデータ) (2020-09-16T15:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。