論文の概要: Understanding and Leveraging the Learning Phases of Neural Networks
- arxiv url: http://arxiv.org/abs/2312.06887v1
- Date: Mon, 11 Dec 2023 23:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:01:28.427924
- Title: Understanding and Leveraging the Learning Phases of Neural Networks
- Title(参考訳): ニューラルネットワークの学習段階の理解と活用
- Authors: Johannes Schneider and Mohit Prabhushanka
- Abstract要約: 深層ニューラルネットワークの学習力学はよく理解されていない。
本研究では,入力および予測性能の層再構築能力について検討し,学習力学を包括的に解析する。
本稿では,ResNetやVGGといった共通データセットとアーキテクチャを用いた3つのフェーズの存在を示す。
- 参考スコア(独自算出の注目度): 1.8592384822257952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning dynamics of deep neural networks are not well understood. The
information bottleneck (IB) theory proclaimed separate fitting and compression
phases. But they have since been heavily debated. We comprehensively analyze
the learning dynamics by investigating a layer's reconstruction ability of the
input and prediction performance based on the evolution of parameters during
training. We empirically show the existence of three phases using common
datasets and architectures such as ResNet and VGG: (i) near constant
reconstruction loss, (ii) decrease, and (iii) increase. We also derive an
empirically grounded data model and prove the existence of phases for
single-layer networks. Technically, our approach leverages classical complexity
analysis. It differs from IB by relying on measuring reconstruction loss rather
than information theoretic measures to relate information of intermediate
layers and inputs. Our work implies a new best practice for transfer learning:
We show empirically that the pre-training of a classifier should stop well
before its performance is optimal.
- Abstract(参考訳): 深層ニューラルネットワークの学習力学はよく理解されていない。
情報ボトルネック(IB)理論は、別々のフィッティングと圧縮フェーズを宣言した。
しかしその後、議論が激しくなった。
学習中のパラメータの進化に基づいて、入力および予測性能の層再構成能力を調査し、学習ダイナミクスを総合的に解析する。
ResNetやVGGといった共通データセットやアーキテクチャを使って,3つのフェーズの存在を実証的に示す。
(i) ほぼ一定の再建損失
(ii)減少、及び
(iii)増加。
また,経験的接地データモデルを導出し,単層ネットワークにおける位相の存在を証明する。
技術的には、我々のアプローチは古典的複雑性分析を利用する。
IBとの違いは、中間層や入力に関する情報を関連付ける情報理論ではなく、再構成損失を測定することである。
我々の研究は、トランスファーラーニングの新たなベストプラクティスを示唆している:我々は、分類器の事前学習が、その性能が最適になる前に、うまく止まることを実証的に示している。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - The learning phases in NN: From Fitting the Majority to Fitting a Few [2.5991265608180396]
本研究では、学習中のパラメータの進化に基づいて、入力と予測性能の層再構成能力を分析する。
また、ResNetやVGGといったコンピュータビジョンから、共通のデータセットやアーキテクチャを用いて行動を評価する。
論文 参考訳(メタデータ) (2022-02-16T19:11:42Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。