論文の概要: How Do the Architecture and Optimizer Affect Representation Learning? On the Training Dynamics of Representations in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2405.17377v2
- Date: Mon, 03 Feb 2025 17:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:28.631443
- Title: How Do the Architecture and Optimizer Affect Representation Learning? On the Training Dynamics of Representations in Deep Neural Networks
- Title(参考訳): アーキテクチャと最適化は表現学習にどのように影響するか : ディープニューラルネットワークにおける表現のトレーニングダイナミクスについて
- Authors: Yuval Sharon, Yehuda Dar,
- Abstract要約: トレーニング中に深層ニューラルネットワーク(DNN)の表現がどのように進化するかを明らかにする。
学習過程全体に沿った学習表現の進化について検討する。
- 参考スコア(独自算出の注目度): 1.573034584191491
- License:
- Abstract: In this paper, we elucidate how representations in deep neural networks (DNNs) evolve during training. Our focus is on overparameterized learning settings where the training continues much after the trained DNN starts to perfectly fit its training data. We examine the evolution of learned representations along the entire training process. We explore the representational similarity of DNN layers, each layer with respect to its own representations throughout the training process. For this, we use two similarity metrics: (1) The centered kernel alignment (CKA) similarity; (2) Similarity of decision regions of linear classifier probes that we train for the DNN layers. We visualize and analyze the decision regions of the DNN output and the layer probes during the DNN training to show how they geometrically evolve. Our extensive experiments discover training dynamics patterns that can emerge in layers depending on the relative layer-depth, architecture and optimizer. Among our findings: (i) The training phases, including those related to memorization, are more distinguishable in SGD training than in Adam training, and for Vision Transformer (ViT) than for ResNet; (ii) Unlike ResNet, the ViT layers have synchronized dynamics of representation learning.
- Abstract(参考訳): 本稿では,深層ニューラルネットワーク(DNN)における表現が学習中にどのように進化するかを明らかにする。
私たちの焦点は、トレーニングされたDNNがトレーニングデータに完全に適合し始めた後、トレーニングがずっと継続する、過度にパラメータ化された学習設定にあります。
学習過程全体に沿った学習表現の進化について検討する。
トレーニングプロセスを通じて,DNNレイヤの表現的類似性,各レイヤの表現性について検討する。
そこで我々は,(1)中心核アライメント(CKA)の類似性,(2)DNN層でトレーニングする線形分類器プローブの決定領域の類似性,という2つの類似性指標を用いた。
我々は,DNNトレーニング中のDNN出力と層プローブの決定領域を可視化し,解析し,それらがどのように幾何学的に進化するかを示す。
我々の広範な実験は、相対的な層深度、アーキテクチャ、オプティマイザに依存する層に現れるトレーニングのダイナミックスパターンを発見しました。
私たちの発見の中では
一 記憶に関するものを含む訓練段階は、アダム訓練よりSGD訓練において、ResNetよりビジョントランスフォーマー(ViT)において、より区別し易い。
(ii) ResNetとは異なり、ViT層は表現学習の同期力学を持つ。
関連論文リスト
- An Analysis Framework for Understanding Deep Neural Networks Based on Network Dynamics [11.44947569206928]
ディープニューラルネットワーク(DNN)は、ディープ層にまたがる異なるモードのニューロンの割合を合理的に割り当てることで、情報抽出を最大化する。
このフレームワークは、"フラット・ミニマ効果(flat minima effect)"、"グロッキング(grokking)"、二重降下現象(double descend phenomena)など、基本的なDNNの振る舞いについて統一的な説明を提供する。
論文 参考訳(メタデータ) (2025-01-05T04:23:21Z) - Multiway Multislice PHATE: Visualizing Hidden Dynamics of RNNs through Training [6.326396282553267]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルなデータ分析に広く使われているツールであるが、計算のブラックボックスとしてよく見られる。
本稿では,RNNの隠れ状態の進化を可視化する新しい手法であるMultiway Multislice PHATE(MM-PHATE)を提案する。
論文 参考訳(メタデータ) (2024-06-04T05:05:27Z) - Unveiling the Unseen: Identifiable Clusters in Trained Depthwise
Convolutional Kernels [56.69755544814834]
深部分離型畳み込みニューラルネットワーク(DS-CNN)の最近の進歩は、新しいアーキテクチャをもたらす。
本稿では,DS-CNNアーキテクチャのもう一つの顕著な特性を明らかにする。
論文 参考訳(メタデータ) (2024-01-25T19:05:53Z) - Adaptive Growth: Real-time CNN Layer Expansion [0.0]
本研究では,データ入力に基づいて,畳み込みニューラルネットワーク(CNN)の畳み込み層を動的に進化させるアルゴリズムを提案する。
厳密なアーキテクチャの代わりに、我々のアプローチはカーネルを畳み込み層に反復的に導入し、様々なデータに対してリアルタイムに応答する。
興味深いことに、我々の教師なしの手法は、さまざまなデータセットにまたがって教師なしの手法を上回った。
論文 参考訳(メタデータ) (2023-09-06T14:43:58Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - Comparison between layer-to-layer network training and conventional
network training using Deep Convolutional Neural Networks [0.6853165736531939]
畳み込みニューラルネットワーク(CNN)は、データから特徴を抽出する効果のため、様々なアプリケーションで広く利用されている。
層間学習法を提案し,その性能を従来の訓練法と比較する。
実験の結果, 層間学習法は両モデルの従来の訓練法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-27T14:29:18Z) - Characterizing Learning Dynamics of Deep Neural Networks via Complex
Networks [1.0869257688521987]
複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。
ノード/ニューロンとレイヤ、すなわちNodes StrengthとLayers Fluctuationのメトリクスを紹介します。
本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低次ネットワークを分離する。
論文 参考訳(メタデータ) (2021-10-06T10:03:32Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。