論文の概要: How Does Perfect Fitting Affect Representation Learning? On the Training Dynamics of Representations in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2405.17377v1
- Date: Mon, 27 May 2024 17:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:14:13.171737
- Title: How Does Perfect Fitting Affect Representation Learning? On the Training Dynamics of Representations in Deep Neural Networks
- Title(参考訳): 表現学習の完全性はどのように影響するか : ディープニューラルネットワークにおける表現のトレーニングダイナミクスについて
- Authors: Yuval Sharon, Yehuda Dar,
- Abstract要約: トレーニング中に深層ニューラルネットワーク(DNN)の表現がどのように進化するかを明らかにする。
深層層での表現は、エポックな2重降下が起こると、より深く進化することを示す。
Vision Transformerでは、完全整合しきい値がすべてのエンコーダブロックにおける表現の進化の遷移をもたらすことを示す。
- 参考スコア(独自算出の注目度): 1.573034584191491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we elucidate how representations in deep neural networks (DNNs) evolve during training. We focus on overparameterized learning settings where the training continues much after the trained DNN starts to perfectly fit its training data. We examine the evolution of learned representations along the entire training process, including its perfect fitting regime, and with respect to the epoch-wise double descent phenomenon. We explore the representational similarity of DNN layers, each layer with respect to its own representations throughout the training process. For this, we use two similarity metrics: (1) The centered kernel alignment (CKA) similarity; (2) Similarity of decision regions of linear classifier probes that we train for the DNN layers. Our extensive experiments discover training dynamics patterns that can emerge in layers depending on the relative layer-depth, DNN width, and architecture. We show that representations at the deeper layers evolve much more in the training when an epoch-wise double descent occurs. For Vision Transformer, we show that the perfect fitting threshold creates a transition in the evolution of representations across all the encoder blocks.
- Abstract(参考訳): 本稿では,深層ニューラルネットワーク(DNN)における表現が学習中にどのように進化するかを明らかにする。
トレーニングされたDNNがトレーニングデータに完全に適合し始めると、トレーニングがずっと継続する、過度にパラメータ化された学習設定に重点を置いています。
本研究は,学習過程全体に沿った学習表現の進化について考察する。
トレーニングプロセスを通じて,DNNレイヤの表現的類似性,各レイヤの表現性について検討する。
そこで我々は,(1)中心核アライメント(CKA)の類似性,(2)DNN層でトレーニングする線形分類器プローブの決定領域の類似性,という2つの類似性指標を用いた。
我々の広範な実験により、相対層深度、DNN幅、アーキテクチャに依存する層に現れるトレーニングダイナミックスパターンが発見された。
深層層での表現は、エポックな2重降下が起こると、より深く進化することを示す。
Vision Transformerでは、完全整合しきい値がすべてのエンコーダブロックにおける表現の進化の遷移をもたらすことを示す。
関連論文リスト
- Multiway Multislice PHATE: Visualizing Hidden Dynamics of RNNs through Training [6.326396282553267]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルなデータ分析に広く使われているツールであるが、計算のブラックボックスとしてよく見られる。
本稿では,RNNの隠れ状態の進化を可視化する新しい手法であるMultiway Multislice PHATE(MM-PHATE)を提案する。
論文 参考訳(メタデータ) (2024-06-04T05:05:27Z) - Deep Learning as Ricci Flow [38.27936710747996]
ディープニューラルネットワーク(DNN)は、複雑なデータの分布を近似する強力なツールである。
分類タスク中のDNNによる変換は、ハミルトンのリッチ流下で期待されるものと類似していることを示す。
本研究の成果は, 微分幾何学や離散幾何学から, 深層学習における説明可能性の問題まで, ツールの利用を動機づけるものである。
論文 参考訳(メタデータ) (2024-04-22T15:12:47Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Adaptive Growth: Real-time CNN Layer Expansion [0.0]
本研究では,データ入力に基づいて,畳み込みニューラルネットワーク(CNN)の畳み込み層を動的に進化させるアルゴリズムを提案する。
厳密なアーキテクチャの代わりに、我々のアプローチはカーネルを畳み込み層に反復的に導入し、様々なデータに対してリアルタイムに応答する。
興味深いことに、我々の教師なしの手法は、さまざまなデータセットにまたがって教師なしの手法を上回った。
論文 参考訳(メタデータ) (2023-09-06T14:43:58Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - A Gradient Boosting Approach for Training Convolutional and Deep Neural
Networks [0.0]
グラディエントブースティング(GB)に基づく畳み込みニューラルネットワーク(CNN)とディープニューラルネットワークの訓練方法を紹介する。
提案モデルでは,同一アーキテクチャの標準CNNとDeep-NNに対して,分類精度の点で優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-22T12:17:32Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Exploring the Common Principal Subspace of Deep Features in Neural
Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。
具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。
異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文 参考訳(メタデータ) (2021-10-06T15:48:32Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。