Fugu-MT 論文翻訳(概要): Average gradient outer product as a mechanism for deep neural collapse

論文の概要: Average gradient outer product as a mechanism for deep neural collapse

arxiv url: http://arxiv.org/abs/2402.13728v5
Date: Thu, 17 Oct 2024 19:25:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.927872
Title: Average gradient outer product as a mechanism for deep neural collapse
Title（参考訳）: 深部神経崩壊のメカニズムとしての平均勾配外積
Authors: Daniel Beaglehole, Peter Súkeník, Marco Mondelli, Mikhail Belkin,
Abstract要約: Deep Neural Collapse (DNC)は、Deep Neural Networks (DNN)の最終層におけるデータ表現の驚くほど硬い構造を指す。本研究では,平均勾配外積(AGOP)を通した特徴学習によりDNCが生成するデータ依存環境を提案する。特徴学習体制下で訓練されたニューラルネットワークに対して,適切な特異ベクトルと重みの値が,クラス内変動の崩壊の大部分の原因となることを示す。
参考スコア（独自算出の注目度）: 26.939895223897572
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Neural Collapse (DNC) refers to the surprisingly rigid structure of the data representations in the final layers of Deep Neural Networks (DNNs). Though the phenomenon has been measured in a variety of settings, its emergence is typically explained via data-agnostic approaches, such as the unconstrained features model. In this work, we introduce a data-dependent setting where DNC forms due to feature learning through the average gradient outer product (AGOP). The AGOP is defined with respect to a learned predictor and is equal to the uncentered covariance matrix of its input-output gradients averaged over the training dataset. The Deep Recursive Feature Machine (Deep RFM) is a method that constructs a neural network by iteratively mapping the data with the AGOP and applying an untrained random feature map. We demonstrate empirically that DNC occurs in Deep RFM across standard settings as a consequence of the projection with the AGOP matrix computed at each layer. Further, we theoretically explain DNC in Deep RFM in an asymptotic setting and as a result of kernel learning. We then provide evidence that this mechanism holds for neural networks more generally. In particular, we show that the right singular vectors and values of the weights can be responsible for the majority of within-class variability collapse for DNNs trained in the feature learning regime. As observed in recent work, this singular structure is highly correlated with that of the AGOP.
Abstract（参考訳）: ディープニューラルネットワーク(Deep Neural Collapse, DNC)とは、ディープニューラルネットワーク(Deep Neural Networks, DNN)の最終層におけるデータ表現の驚くほど厳格な構造を指す。この現象は様々な環境で測定されてきたが、その出現はデータに依存しないアプローチ(例えば制約のない特徴モデル)によって説明されるのが一般的である。本研究では,平均勾配外積(AGOP)による特徴学習によりDNCが形成されるデータ依存環境を提案する。 AGOPは学習した予測器に対して定義され、トレーニングデータセット上で平均される入出力勾配の非中心的共分散行列と等しい。 Deep Recursive Feature Machine (Deep RFM)は、AGOPにデータを反復的にマッピングし、トレーニングされていないランダムな特徴マップを適用することによって、ニューラルネットワークを構築する方法である。我々は,各層で計算されたAGOP行列による投影の結果,DNCが標準設定全体にわたってDeep RFMで発生することを実証的に実証した。さらに、Deep RFMのDNCを漸近的な環境で、カーネル学習の結果、理論的に説明する。そして、このメカニズムがより一般的にニューラルネットワークに当てはまる証拠を提供する。特に,特徴学習体制において訓練されたDNNに対して,適切な特異ベクトルと重みの値がクラス内変動の崩壊の大部分の原因となることを示す。最近の研究で見られるように、この特異構造はAGOPと非常に相関している。

関連論文リスト

Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。 DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文参考訳（メタデータ） (2024-10-05T18:53:48Z)
Beyond Unconstrained Features: Neural Collapse for Shallow Neural Networks with General Data [0.8594140167290099]
ニューラル崩壊(Neural collapse, NC)は、ディープ・ニューラル・ネットワーク(DNN)の終末期に発生する現象である。 2層または3層ニューラルネットワークでNCが発生した場合の完全な特徴付けを提供する。
論文参考訳（メタデータ） (2024-09-03T12:30:21Z)
Deep Learning as Ricci Flow [38.27936710747996]
ディープニューラルネットワーク(DNN)は、複雑なデータの分布を近似する強力なツールである。分類タスク中のDNNによる変換は、ハミルトンのリッチ流下で期待されるものと類似していることを示す。本研究の成果は, 微分幾何学や離散幾何学から, 深層学習における説明可能性の問題まで, ツールの利用を動機づけるものである。
論文参考訳（メタデータ） (2024-04-22T15:12:47Z)
Assessing Neural Network Representations During Training Using Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文参考訳（メタデータ） (2023-12-04T01:32:42Z)
Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文参考訳（メタデータ） (2023-10-02T03:25:32Z)
Do deep neural networks have an inbuilt Occam's razor? [1.1470070927586016]
構造データとOccam's razor-likeインダクティブバイアスが組み合わさった単純な関数に対する構造データは、複雑さを伴う関数の指数的成長に反することを示す。この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑さを伴う関数の指数的成長に対抗できるほど強いことがDNNの成功の鍵であることが明らかになった。
論文参考訳（メタデータ） (2023-04-13T16:58:21Z)
Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。特に、最終層の特徴がクラス平均に崩壊することが観察されている。本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文参考訳（メタデータ） (2023-01-01T16:29:56Z)
Variational Inference for Infinitely Deep Neural Networks [0.4061135251278187]
非有界深度ニューラルネットワーク(UDN) 我々は、無限に深い確率モデルである非有界深度ニューラルネットワーク(UDN)を導入し、その複雑さをトレーニングデータに適用する。我々はUDNを実データと合成データに基づいて研究する。
論文参考訳（メタデータ） (2022-09-21T03:54:34Z)
What Can Be Learnt With Wide Convolutional Neural Networks? [69.55323565255631]
カーネルシステムにおける無限大の深層CNNについて検討する。我々は,深部CNNが対象関数の空間スケールに適応していることを証明する。我々は、別の深部CNNの出力に基づいて訓練された深部CNNの一般化誤差を計算して結論付ける。
論文参考訳（メタデータ） (2022-08-01T17:19:32Z)
Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文参考訳（メタデータ） (2021-06-07T10:18:54Z)
Rank-R FNN: A Tensor-Based Learning Model for High-Order Data Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。 Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文参考訳（メタデータ） (2021-04-11T16:37:32Z)
Dropout: Explicit Forms and Capacity Control [57.36692251815882]
各種機械学習問題におけるドロップアウトによるキャパシティ制御について検討する。ディープラーニングでは、ドロップアウトによるデータ依存型正規化器が、基礎となるディープニューラルネットワークのクラスであるRademacherの複雑さを直接制御していることを示す。 MovieLens, MNIST, Fashion-MNISTなどの実世界のデータセットに関する理論的知見を評価する。
論文参考訳（メタデータ） (2020-03-06T19:10:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。