論文の概要: Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers
- arxiv url: http://arxiv.org/abs/2410.19139v1
- Date: Thu, 24 Oct 2024 20:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:50.984426
- Title: Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers
- Title(参考訳): 初期化の課題:フルトレーニング可能な層を持つ2層ReLU CNNの最適オーバーフィッティングについて
- Authors: Shuning Shang, Xuran Meng, Yuan Cao, Difan Zou,
- Abstract要約: 解析は、完全にトレーニング可能な層を持つ2層ReLU畳み込みニューラルネットワーク(CNN)に拡張する。
以上の結果から,出力層のスケーリングがトレーニングのダイナミックスに不可欠であることが示唆された。
どちらの設定でも、テストエラーの上限と下限にほぼ一致するものを提供します。
- 参考スコア(独自算出の注目度): 20.25049261035324
- License:
- Abstract: Benign overfitting refers to how over-parameterized neural networks can fit training data perfectly and generalize well to unseen data. While this has been widely investigated theoretically, existing works are limited to two-layer networks with fixed output layers, where only the hidden weights are trained. We extend the analysis to two-layer ReLU convolutional neural networks (CNNs) with fully trainable layers, which is closer to the practice. Our results show that the initialization scaling of the output layer is crucial to the training dynamics: large scales make the model training behave similarly to that with the fixed output, the hidden layer grows rapidly while the output layer remains largely unchanged; in contrast, small scales result in more complex layer interactions, the hidden layer initially grows to a specific ratio relative to the output layer, after which both layers jointly grow and maintain that ratio throughout training. Furthermore, in both settings, we provide nearly matching upper and lower bounds on the test errors, identifying the sharp conditions on the initialization scaling and signal-to-noise ratio (SNR) in which the benign overfitting can be achieved or not. Numerical experiments back up the theoretical results.
- Abstract(参考訳): ベニグオーバーフィッティング(Benign Overfitting)とは、過パラメータのニューラルネットワークがトレーニングデータを完璧に適合させ、目に見えないデータに最適化する方法である。
これは理論的に広く研究されているが、既存の作業は固定出力層を持つ2層ネットワークに限られており、隠れ重みのみが訓練されている。
解析を2層ReLU畳み込みニューラルネットワーク(CNN)に拡張する。
実験結果から, モデルトレーニングを固定出力と同等に動作させる大規模化, 出力層がほとんど変化しない間に隠れ層が急速に成長する, 対照的に, 小スケール化により複雑な層間相互作用が生じ, 隠蔽層は最初は出力層に対して比比例して成長し, 両層はトレーニング全体を通してその比を連続的に成長し維持する, という結果が得られた。
さらに,両設定ともに,初期化スケーリングの急激な条件と,良性オーバーフィッティングを達成できるか否かの信号対雑音比(SNR)を同定し,テストエラーの上限値と下限値にほぼ一致するようにした。
数値実験は理論的な結果を裏付ける。
関連論文リスト
- Layerwise complexity-matched learning yields an improved model of cortical area V2 [12.861402235256207]
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドを訓練した。
我々は,連続する層に独立して機能する自己指導型トレーニング手法を開発した。
本モデルは, 霊長類領域V2における選択性特性と神経活動に適合していることが示唆された。
論文 参考訳(メタデータ) (2023-12-18T18:37:02Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Tensor decomposition to Compress Convolutional Layers in Deep Learning [5.199454801210509]
本稿では,CP分解法を用いて,ディープラーニングにおける畳み込み層(CPAC-Conv層)を近似的に圧縮することを提案する。
提案するCPAC-Conv層に対して, 提案したCPAC-Conv層に対して, 提案したCPAC-Conv層を圧縮するためにCP分解を適用し, 提案したCPAC-Conv層と比較して, 提案したCPAC-Conv層は, 予測性能を損なうことなくパラメータ数を減少させることができ, (3) 分解されたカーネルの値は, 対応する特徴写像の意義を示す。
論文 参考訳(メタデータ) (2020-05-28T02:35:48Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。