論文の概要: Deep Exploration of Epoch-wise Double Descent in Noisy Data: Signal Separation, Large Activation, and Benign Overfitting
- arxiv url: http://arxiv.org/abs/2601.08316v1
- Date: Tue, 13 Jan 2026 08:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.112113
- Title: Deep Exploration of Epoch-wise Double Descent in Noisy Data: Signal Separation, Large Activation, and Benign Overfitting
- Title(参考訳): ノイズデータにおけるEpoch-wise Double Descentの深部探査:信号分離, 大規模活性化, 配向オーバーフィッティング
- Authors: Tomoki Kubo, Ryuken Uda, Yusuke Iida,
- Abstract要約: 深層学習モデルの一般化能力の根底にある重要な現象の1つに「深層二重降下」がある。
本研究では, 内部構造の進化に着目して, 急激な二重降下について検討した。
結果: 二重降下期における騒音訓練データを完全に適合させた後でも, 試験データに対する強い再一般化が達成された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep double descent is one of the key phenomena underlying the generalization capability of deep learning models. In this study, epoch-wise double descent, which is delayed generalization following overfitting, was empirically investigated by focusing on the evolution of internal structures. Fully connected neural networks of three different sizes were trained on the CIFAR-10 dataset with 30% label noise. By decomposing the loss curves into signal contributions from clean and noisy training data, the epoch-wise evolutions of internal signals were analyzed separately. Three main findings were obtained from this analysis. First, the model achieved strong re-generalization on test data even after perfectly fitting noisy training data during the double descent phase, corresponding to a "benign overfitting" state. Second, noisy data were learned after clean data, and as learning progressed, their corresponding internal activations became increasingly separated in outer layers; this enabled the model to overfit only noisy data. Third, a single, very large activation emerged in the shallow layer across all models; this phenomenon is referred as "outliers," "massive activa-tions," and "super activations" in recent large language models and evolves with re-generalization. The magnitude of large activation correlated with input patterns but not with output patterns. These empirical findings directly link the recent key phenomena of "deep double descent," "benign overfitting," and "large activation", and support the proposal of a novel scenario for understanding deep double descent.
- Abstract(参考訳): 深層二重降下は、深層学習モデルの一般化能力の根底にある重要な現象の1つである。
本研究では, オーバーフィッティング後の一般化が遅れたエポックワイド二重降下について, 内部構造の進化に着目して実験的に検討した。
CIFAR-10データセット上で、30%のラベルノイズで3つの異なるサイズの完全に接続されたニューラルネットワークをトレーニングした。
損失曲線をクリーンでノイズの多いトレーニングデータから信号寄与に分解することにより、内部信号のエポックワイズ進化を別々に分析した。
この分析から3つの主要な所見が得られた。
まず、二重降下期におけるノイズの多いトレーニングデータを完全に適合させた後も、テストデータに対する強力な再一般化を達成し、「良性過剰適合」状態に対応する。
第二に、ノイズデータをクリーンなデータから学習し、学習が進むにつれて、それらに対応する内部のアクティベーションは外側の層に分離され、ノイズのみに過度に適合する。
第3に、すべてのモデルにまたがる浅い層に、単一の非常に大きなアクティベーションが出現し、この現象は、近年の大規模言語モデルにおいて、"outliers"、"massive activa-tions"、"super activations"と呼ばれ、再一般化とともに進化する。
大きな活性化の大きさは入力パターンと相関するが、出力パターンとは相関しない。
これらの経験的知見は,近年の「深度二重降下」,「良性過剰適合」,「大規模活性化」といった重要な現象に直接関連しており,深度二重降下を理解するための新たなシナリオの提案を支持している。
関連論文リスト
- Unveiling Multiple Descents in Unsupervised Autoencoders [25.244065166421517]
非線形非教師なしオートエンコーダで二重・三重降下を観測できることを初めて示す。
合成データセットと実データセットの両方に関する広範な実験を通して、モデルワイド、エポックワイド、サンプルワイドの二重降下を明らかにする。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - Unraveling the Enigma of Double Descent: An In-depth Analysis through the Lens of Learned Feature Space [12.907949196758565]
二重降下は、機械学習領域内の反直観的な側面を示す。
ノイズの多いデータで訓練された不完全なモデルに二重降下が生じると我々は主張する。
論文 参考訳(メタデータ) (2023-10-20T15:10:16Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Deep Double Descent via Smooth Interpolation [2.141079906482723]
我々は、各トレーニングポイントに局所的な入力変数に対する損失ランドスケープw.r.t.を研究することにより、トレーニングデータの適合性の鋭さを定量化する。
以上の結果から,入力空間における損失のシャープネスは,モデル・アンド・エポシカルな2重降下に追随することが明らかとなった。
小さな補間モデルはクリーンデータとノイズデータの両方に強く適合するが、大きな補間モデルは既存の直観とは対照的にスムーズなロスランドスケープを表現している。
論文 参考訳(メタデータ) (2022-09-21T02:46:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。