論文の概要: DSD$^2$: Can We Dodge Sparse Double Descent and Compress the Neural
Network Worry-Free?
- arxiv url: http://arxiv.org/abs/2303.01213v3
- Date: Thu, 8 Feb 2024 08:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 20:02:30.023090
- Title: DSD$^2$: Can We Dodge Sparse Double Descent and Compress the Neural
Network Worry-Free?
- Title(参考訳): dsd$^2$: スパース二重降下を回避し、ニューラルネットワークを心配なく圧縮できるか?
- Authors: Victor Qu\'etu, Enzo Tartaglione
- Abstract要約: このような現象を回避し、一般化を改善する学習フレームワークを提案する。
第2に,この現象の持続性に関する洞察を提供するエントロピー尺度を導入する。
第3に、再初期化法、モデル幅と深さ、データセットノイズなどの要因を包括的に定量的に分析する。
- 参考スコア(独自算出の注目度): 7.793339267280654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neoteric works have shown that modern deep learning models can exhibit a
sparse double descent phenomenon. Indeed, as the sparsity of the model
increases, the test performance first worsens since the model is overfitting
the training data; then, the overfitting reduces, leading to an improvement in
performance, and finally, the model begins to forget critical information,
resulting in underfitting. Such a behavior prevents using traditional early
stop criteria. In this work, we have three key contributions. First, we propose
a learning framework that avoids such a phenomenon and improves generalization.
Second, we introduce an entropy measure providing more insights into the
insurgence of this phenomenon and enabling the use of traditional stop
criteria. Third, we provide a comprehensive quantitative analysis of contingent
factors such as re-initialization methods, model width and depth, and dataset
noise. The contributions are supported by empirical evidence in typical setups.
Our code is available at https://github.com/VGCQ/DSD2.
- Abstract(参考訳): ネオテリックな研究は、現代のディープラーニングモデルがスパース二重降下現象を示すことができることを示した。
実際、モデルのスパーシティが増加すると、モデルがトレーニングデータを過剰にフィッティングしているため、テストパフォーマンスがまず悪化し、オーバーフィッティングが減少し、パフォーマンスが向上し、最終的にモデルが重要な情報を忘れ始め、過フィッティングが発生する。
このような行動は、伝統的な早期停止基準の使用を妨げる。
この作業には3つの重要な貢献があります。
まず,そのような現象を回避し,一般化を改善する学習フレームワークを提案する。
第2に,この現象の持続性に関する洞察を提供し,従来の停止基準の活用を可能にするエントロピー尺度を導入する。
第3に,再初期化法,モデル幅と深さ,データセットノイズといった事象要因の包括的定量的解析を行う。
この貢献は、典型的なセットアップでの実証的な証拠によって裏付けられる。
私たちのコードはhttps://github.com/vgcq/dsd2で利用可能です。
関連論文リスト
- Addressing Concept Shift in Online Time Series Forecasting: Detect-then-Adapt [37.98336090671441]
概念 textbfDrift textbfDetection antextbfD textbfAdaptation (D3A)
まずドリフトの概念を検知し、次に急激な適応の検出の後、現在のモデルをドリフトされた概念に積極的に適応する。
これは、トレイン-テストのパフォーマンスの不整合に寄与する重要な要因であるデータ分散ギャップを軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-03-22T04:44:43Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Sparse Double Descent: Where Network Pruning Aggravates Overfitting [8.425040193238777]
本稿では,ネットワークプルーニングによるモデル間隔の増加に伴い,テスト性能が悪化する予期せぬ二重降下現象を報告する。
本稿では,スパースモデルの学習距離$ell_2$の曲線がスパース二重降下曲線とよく相関することを示す。
論文 参考訳(メタデータ) (2022-06-17T11:02:15Z) - Adaptive Online Incremental Learning for Evolving Data Streams [4.3386084277869505]
最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。
第二の難しさは、破滅的な忘れ、すなわち、新しい知識を学ぶ前に学んだことを忘れることです。
我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。
論文 参考訳(メタデータ) (2022-01-05T14:25:53Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Spatio-Temporal Graph Contrastive Learning [49.132528449909316]
これらの問題に対処するための時空間グラフコントラスト学習フレームワーク(STGCL)を提案する。
グラフ構造、時間領域、周波数領域の4種類のデータ拡張について詳述する。
我々のフレームワークは、実世界の3つのデータセットと4つの最先端モデルで評価されている。
論文 参考訳(メタデータ) (2021-08-26T16:05:32Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。