論文の概要: Just How Flexible are Neural Networks in Practice?
- arxiv url: http://arxiv.org/abs/2406.11463v1
- Date: Mon, 17 Jun 2024 12:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:01:35.466180
- Title: Just How Flexible are Neural Networks in Practice?
- Title(参考訳): ニューラルネットワークの実践はどの程度柔軟か?
- Authors: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson,
- Abstract要約: ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
- 参考スコア(独自算出の注目度): 89.80474583606242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is widely believed that a neural network can fit a training set containing at least as many samples as it has parameters, underpinning notions of overparameterized and underparameterized models. In practice, however, we only find solutions accessible via our training procedure, including the optimizer and regularizers, limiting flexibility. Moreover, the exact parameterization of the function class, built into an architecture, shapes its loss surface and impacts the minima we find. In this work, we examine the ability of neural networks to fit data in practice. Our findings indicate that: (1) standard optimizers find minima where the model can only fit training sets with significantly fewer samples than it has parameters; (2) convolutional networks are more parameter-efficient than MLPs and ViTs, even on randomly labeled data; (3) while stochastic training is thought to have a regularizing effect, SGD actually finds minima that fit more training data than full-batch gradient descent; (4) the difference in capacity to fit correctly labeled and incorrectly labeled samples can be predictive of generalization; (5) ReLU activation functions result in finding minima that fit more data despite being designed to avoid vanishing and exploding gradients in deep architectures.
- Abstract(参考訳): ニューラルネットワークは、パラメーターと同じくらい多くのサンプルを含むトレーニングセットに適合し、過パラメータ化モデルと過パラメータ化モデルの概念の基盤となると広く信じられている。
しかし実際には、オプティマイザやレギュレータなど、柔軟性の制限など、トレーニング手順を通じてのみアクセス可能なソリューションを見つけています。
さらに、アーキテクチャに組み込まれた関数クラスの正確なパラメータ化は、損失面を形作り、見いだすミニマに影響を与える。
本研究では,ニューラルネットワークが実際にデータに適合する能力について検討する。
その結果,(1)標準オプティマイザは,モデルがパラメータよりもはるかに少ないトレーニングセットに適合するミニマ,(2)畳み込みネットワークはMPPやViTよりもパラメータ効率が高い,(3)確率的トレーニングは正規化効果を持つと考えられるが,SGDは実際に,フルバッチ勾配よりもトレーニングデータに適合するミニマ,(4)正しくラベル付けされたサンプルと誤ラベル付けされたサンプルに適合するキャパシティの差は一般化の予測が可能,(5)ReLUアクティベーション関数は,深いアーキテクチャにおける勾配の消滅や爆発を回避するために設計されたデータに適合するミニマを見つける。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Evolutionary Retrofitting [42.21143557577615]
AfterLearnERは、完全に訓練された機械学習モデルに進化的手法を含む、微分不可能な最適化を適用することで構成される。
AfterLearnERの効率は、奥行き検知におけるしきい値に基づく基準、音声合成における単語誤り率、3次元生成逆数ネットワーク(GAN)における画像品質といった、識別不能な信号に対処することによって実証される。
AfterLearnERの利点は、その汎用性(グラデーションは必要ない)、人間の評価、限定的なオーバーフィッティング、理論的な研究、そしてその常に振舞いなど、微分不可能なフィードバックを使用することである。
論文 参考訳(メタデータ) (2024-10-15T06:59:32Z) - Pruning Convolutional Filters via Reinforcement Learning with Entropy
Minimization [0.0]
本稿では,畳み込み活性化の空間エントロピーを最小化する情報理論報酬関数を提案する。
提案手法は,エージェントの報酬関数で直接最適化することなく,精度を維持できる可能性を示している。
論文 参考訳(メタデータ) (2023-12-08T09:34:57Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - Adaptive Low-Rank Factorization to regularize shallow and deep neural
networks [9.607123078804959]
低ランク行列因子化(LRF)を用いて、学習過程に沿って学習モデルのパラメータをドロップアウトする。
SVHNとCIFAR-10データセットにおけるAdaptiveLRFの最良の結果は98%、94.1%、97.9%、94%の精度である。
論文 参考訳(メタデータ) (2020-05-05T08:13:30Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。