論文の概要: Dodging the Sparse Double Descent
- arxiv url: http://arxiv.org/abs/2303.01213v1
- Date: Thu, 2 Mar 2023 12:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:38:57.652889
- Title: Dodging the Sparse Double Descent
- Title(参考訳): まばらな二重降下をまき散らすさま
- Authors: Victor Qu\'etu, Enzo Tartaglione
- Abstract要約: 筆者らは,この現象を回避し,一般化を改善する学習フレームワークを提案する。
提案手法は,典型的な逆学習装置を用いた実験結果によって支持される。
- 参考スコア(独自算出の注目度): 3.1473798197405944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an approach to addressing the issue of
over-parametrization in deep neural networks, more specifically by avoiding the
``sparse double descent'' phenomenon. The authors propose a learning framework
that allows avoidance of this phenomenon and improves generalization, an
entropy measure to provide more insights on its insurgence, and provide a
comprehensive quantitative analysis of various factors such as
re-initialization methods, model width and depth, and dataset noise. The
proposed approach is supported by experimental results achieved using typical
adversarial learning setups. The source code to reproduce the experiments is
provided in the supplementary materials and will be publicly released upon
acceptance of the paper.
- Abstract(参考訳): 本稿では,より具体的には ‘sparse double descent'' 現象を回避して,ディープニューラルネットワークにおける過パラメータ問題に対処する手法を提案する。
筆者らは, この現象を回避し, 一般化を改善する学習フレームワークを提案し, エントロピー尺度を用いて, 再初期化法, モデル幅と深さ, データセットノイズなどの様々な要因を包括的に定量的に分析した。
提案手法は,典型的な逆学習装置を用いた実験結果によって支持される。
実験を再現するためのソースコードは補足資料に提供され、論文の受理後に公開される予定だ。
関連論文リスト
- Addressing Concept Shift in Online Time Series Forecasting: Detect-then-Adapt [37.98336090671441]
概念 textbfDrift textbfDetection antextbfD textbfAdaptation (D3A)
まずドリフトの概念を検知し、次に急激な適応の検出の後、現在のモデルをドリフトされた概念に積極的に適応する。
これは、トレイン-テストのパフォーマンスの不整合に寄与する重要な要因であるデータ分散ギャップを軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-03-22T04:44:43Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Sparse Double Descent: Where Network Pruning Aggravates Overfitting [8.425040193238777]
本稿では,ネットワークプルーニングによるモデル間隔の増加に伴い,テスト性能が悪化する予期せぬ二重降下現象を報告する。
本稿では,スパースモデルの学習距離$ell_2$の曲線がスパース二重降下曲線とよく相関することを示す。
論文 参考訳(メタデータ) (2022-06-17T11:02:15Z) - Adaptive Online Incremental Learning for Evolving Data Streams [4.3386084277869505]
最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。
第二の難しさは、破滅的な忘れ、すなわち、新しい知識を学ぶ前に学んだことを忘れることです。
我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。
論文 参考訳(メタデータ) (2022-01-05T14:25:53Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Spatio-Temporal Graph Contrastive Learning [49.132528449909316]
これらの問題に対処するための時空間グラフコントラスト学習フレームワーク(STGCL)を提案する。
グラフ構造、時間領域、周波数領域の4種類のデータ拡張について詳述する。
我々のフレームワークは、実世界の3つのデータセットと4つの最先端モデルで評価されている。
論文 参考訳(メタデータ) (2021-08-26T16:05:32Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。