論文の概要: Manipulating Sparse Double Descent
- arxiv url: http://arxiv.org/abs/2401.10686v1
- Date: Fri, 19 Jan 2024 13:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:58:26.011451
- Title: Manipulating Sparse Double Descent
- Title(参考訳): スパース二重降下を操作する
- Authors: Ya Shi Zhang
- Abstract要約: スパース二重降下と呼ばれる別の二重降下現象を探索する。
この研究は、モデルの複雑さ、スパーシリティ、一般化の間の複雑な関係を強調し、より多様なモデルとデータセットに関するさらなる研究を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the double descent phenomenon in two-layer neural
networks, focusing on the role of L1 regularization and representation
dimensions. It explores an alternative double descent phenomenon, named sparse
double descent. The study emphasizes the complex relationship between model
complexity, sparsity, and generalization, and suggests further research into
more diverse models and datasets. The findings contribute to a deeper
understanding of neural network training and optimization.
- Abstract(参考訳): 本稿では,L1正則化と表現次元に着目し,二層ニューラルネットワークにおける二重降下現象について検討する。
スパース二重降下と呼ばれる別の二重降下現象を探索する。
この研究は、モデルの複雑さ、スパーシリティ、一般化の間の複雑な関係を強調し、より多様なモデルとデータセットに関するさらなる研究を提案する。
この結果は、ニューラルネットワークのトレーニングと最適化に関する深い理解に寄与する。
関連論文リスト
- Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - A Survey on Statistical Theory of Deep Learning: Approximation, Training
Dynamics, and Generative Models [15.692437265063342]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する結果は、回帰または分類の非パラメトリックフレームワークでレビューされる。
本稿では、GAN(Generative Adversarial Networks)、拡散モデル、Large Language Models(LLMs)におけるICL(In-context Learning)などの生成モデルにおける最新の理論的進歩について概説する。
論文 参考訳(メタデータ) (2024-01-14T02:30:19Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Double Descent of Discrepancy: A Task-, Data-, and Model-Agnostic
Phenomenon [11.638631814600231]
2つの同一トレーニングニューラルネットワークについて検討し、トレーニングデータセット上の出力の差が「二重降下」現象を示すことを発見した。
我々は,新しい早期停止基準を提案し,データ品質評価のための新しい手法を開発した。
その結果,現象駆動型アプローチは理論的理解と実践的応用の両方において深層学習研究に有用であることが示唆された。
論文 参考訳(メタデータ) (2023-05-25T10:13:19Z) - An Information-Theoretic Framework for Supervised Learning [22.280001450122175]
後悔とサンプルの複雑さという独自の概念を持つ新しい情報理論フレームワークを提案する。
本稿では、ReLUアクティベーションユニットを用いたディープニューラルネットワークによって生成されたデータから学習する際のサンプルの複雑さについて検討する。
我々は、ランダムな単層ニューラルネットワークの実験的な解析により、理論結果を裏付けることで結論付ける。
論文 参考訳(メタデータ) (2022-03-01T05:58:28Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - A new inference approach for training shallow and deep generalized
linear models of noisy interacting neurons [4.899818550820575]
我々は2段階の推論戦略を開発し、相互作用するニューロンの堅牢な一般化線形モデルを訓練する。
古典的手法と比較して、この方法で訓練されたモデルは性能が向上していることが示される。
この手法は深部畳み込みニューラルネットワークに拡張することができ、ニューロンの発火速度とその相関の予測精度の高いモデルが得られる。
論文 参考訳(メタデータ) (2020-06-11T15:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。