論文の概要: Deep Double Descent via Smooth Interpolation
- arxiv url: http://arxiv.org/abs/2209.10080v4
- Date: Sat, 8 Apr 2023 21:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 23:24:02.146981
- Title: Deep Double Descent via Smooth Interpolation
- Title(参考訳): 平滑補間による深部二重蛍光
- Authors: Matteo Gamba and Erik Englesson and M{\aa}rten Bj\"orkman and Hossein
Azizpour
- Abstract要約: 我々は、各トレーニングポイントに局所的な入力変数に対する損失ランドスケープw.r.t.を研究することにより、トレーニングデータの適合性の鋭さを定量化する。
以上の結果から,入力空間における損失のシャープネスは,モデル・アンド・エポシカルな2重降下に追随することが明らかとなった。
小さな補間モデルはクリーンデータとノイズデータの両方に強く適合するが、大きな補間モデルは既存の直観とは対照的にスムーズなロスランドスケープを表現している。
- 参考スコア(独自算出の注目度): 2.141079906482723
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability of overparameterized deep networks to interpolate noisy data,
while at the same time showing good generalization performance, has been
recently characterized in terms of the double descent curve for the test error.
Common intuition from polynomial regression suggests that overparameterized
networks are able to sharply interpolate noisy data, without considerably
deviating from the ground-truth signal, thus preserving generalization ability.
At present, a precise characterization of the relationship between
interpolation and generalization for deep networks is missing. In this work, we
quantify sharpness of fit of the training data interpolated by neural network
functions, by studying the loss landscape w.r.t. to the input variable locally
to each training point, over volumes around cleanly- and noisily-labelled
training samples, as we systematically increase the number of model parameters
and training epochs. Our findings show that loss sharpness in the input space
follows both model- and epoch-wise double descent, with worse peaks observed
around noisy labels. While small interpolating models sharply fit both clean
and noisy data, large interpolating models express a smooth loss landscape,
where noisy targets are predicted over large volumes around training data
points, in contrast to existing intuition.
- Abstract(参考訳): 過パラメータ化深層ネットワークがノイズデータを補間する能力は, 高い一般化性能を示すと同時に, テスト誤差の二重降下曲線を特徴付けている。
多項式回帰からの一般的な直観は、過小パラメータネットワークは、接地信号からかなり外れることなく、ノイズデータを鋭く補間することができ、一般化能力を維持することを示唆している。
現在、ディープネットワークにおける補間と一般化の関係の正確な特徴が欠落している。
本研究では,ニューラルネットワーク機能によって補間されたトレーニングデータのシャープネスを,各トレーニングポイントの入力変数に対する損失ランドスケープw.r.t.を解析し,モデルパラメータの数を体系的に増加させ,トレーニングエポックを増大させることにより定量化する。
以上の結果より, 入力空間における損失のシャープネスは, モデルとエポシカルな2重降下の双方に続くことが示唆された。
小さな補間モデルはクリーンデータとノイズデータの両方に鮮明に適合するが、大きな補間モデルはスムーズなロスランドスケープを表現しており、既存の直観とは対照的に、トレーニングデータポイント周辺の大量のノイズ目標が予測される。
関連論文リスト
- Simplicity bias and optimization threshold in two-layer ReLU networks [24.43739371803548]
過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するのではなく、より単純な解へと収束することを示す。
我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。
論文 参考訳(メタデータ) (2024-10-03T09:58:57Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Contrasting random and learned features in deep Bayesian linear
regression [12.234742322758418]
本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。
すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
論文 参考訳(メタデータ) (2022-03-01T15:51:29Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。