論文の概要: Residual Alignment: Uncovering the Mechanisms of Residual Networks
- arxiv url: http://arxiv.org/abs/2401.09018v1
- Date: Wed, 17 Jan 2024 07:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:35:48.164966
- Title: Residual Alignment: Uncovering the Mechanisms of Residual Networks
- Title(参考訳): 残差アライメント:残差ネットワークのメカニズムを明らかにする
- Authors: Jianing Li, Vardan Papyan
- Abstract要約: 本稿では,残余ブロックを線形化することで分類タスクにおけるResNetアーキテクチャについて検討する。
4つの特性を特徴とするRA(Residual Alignment)と呼ばれるプロセスを明らかにした。
この現象は、ResNetの残枝が最終層まで強いアライメントを示し、ニューラル・コラプス(Neural Collapse)を行う。
- 参考スコア(独自算出の注目度): 21.899697742614894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ResNet architecture has been widely adopted in deep learning due to its
significant boost to performance through the use of simple skip connections,
yet the underlying mechanisms leading to its success remain largely unknown. In
this paper, we conduct a thorough empirical study of the ResNet architecture in
classification tasks by linearizing its constituent residual blocks using
Residual Jacobians and measuring their singular value decompositions. Our
measurements reveal a process called Residual Alignment (RA) characterized by
four properties:
(RA1) intermediate representations of a given input are equispaced on a line,
embedded in high dimensional space, as observed by Gai and Zhang [2021];
(RA2) top left and right singular vectors of Residual Jacobians align with
each other and across different depths;
(RA3) Residual Jacobians are at most rank C for fully-connected ResNets,
where C is the number of classes; and
(RA4) top singular values of Residual Jacobians scale inversely with depth.
RA consistently occurs in models that generalize well, in both
fully-connected and convolutional architectures, across various depths and
widths, for varying numbers of classes, on all tested benchmark datasets, but
ceases to occur once the skip connections are removed. It also provably occurs
in a novel mathematical model we propose. This phenomenon reveals a strong
alignment between residual branches of a ResNet (RA2+4), imparting a highly
rigid geometric structure to the intermediate representations as they progress
linearly through the network (RA1) up to the final layer, where they undergo
Neural Collapse.
- Abstract(参考訳): resnetアーキテクチャは、単純なスキップ接続の使用によるパフォーマンスの大幅な向上によって、ディープラーニングに広く採用されているが、その成功に至る基盤となるメカニズムはほとんど不明である。
本稿では,残留ヤコビアンを用いた残差ブロックの線形化と特異値分解の測定により,分類タスクにおけるResNetアーキテクチャの徹底的な実証的研究を行う。
Our measurements reveal a process called Residual Alignment (RA) characterized by four properties: (RA1) intermediate representations of a given input are equispaced on a line, embedded in high dimensional space, as observed by Gai and Zhang [2021]; (RA2) top left and right singular vectors of Residual Jacobians align with each other and across different depths; (RA3) Residual Jacobians are at most rank C for fully-connected ResNets, where C is the number of classes; and (RA4) top singular values of Residual Jacobians scale inversely with depth.
RAは、完全に接続されたアーキテクチャと畳み込みアーキテクチャの両方において、テストされたすべてのベンチマークデータセットにおいて、様々な数のクラスに対して、様々な深さと幅で、よく一般化するモデルで一貫して発生するが、スキップ接続が削除されると、停止する。
これは、我々が提案する新しい数学的モデルでも確実に発生する。
この現象は、resnet(ra2+4)の残枝間の強いアライメントを示し、ネットワーク(ra1)を通って最終層まで直線的に進行する中間表現に高度に剛性のある幾何学的構造を与え、そこで神経崩壊が起こる。
関連論文リスト
- Single Image Reflection Separation via Component Synergy [14.57590565534889]
反射重畳現象は複雑で、現実世界に広く分布している。
学習可能な残余項を導入することにより、重ね合わせモデルのより一般的な形式を提案する。
その利点をフルに活用するために,ネットワーク構造をさらに精巧に設計する。
論文 参考訳(メタデータ) (2023-08-19T14:25:27Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - PR-RRN: Pairwise-Regularized Residual-Recursive Networks for Non-rigid
Structure-from-Motion [58.75694870260649]
PR-RRNは、非剛性構造移動のための新しいニューラルネットワークベースの手法である。
再建をさらに規則化するための2つの新しいペアワイズ正規化を提案する。
提案手法は,CMU MOCAPとPASCAL3D+データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-17T08:39:02Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。