論文の概要: Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method
- arxiv url: http://arxiv.org/abs/2305.11957v2
- Date: Wed, 26 Jun 2024 21:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 20:35:54.691861
- Title: Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method
- Title(参考訳): 情報ボトルネック法を用いた教師付きコントラスト学習における神経崩壊の理解に向けて
- Authors: Siwei Wang, Stephanie E Palmer,
- Abstract要約: ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。
分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
- 参考スコア(独自算出の注目度): 26.874007846077884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural collapse describes the geometry of activation in the final layer of a deep neural network when it is trained beyond performance plateaus. Open questions include whether neural collapse leads to better generalization and, if so, why and how training beyond the plateau helps. We model neural collapse as an information bottleneck (IB) problem in order to investigate whether such a compact representation exists and discover its connection to generalization. We demonstrate that neural collapse leads to good generalization specifically when it approaches an optimal IB solution of the classification problem. Recent research has shown that two deep neural networks independently trained with the same contrastive loss objective are linearly identifiable, meaning that the resulting representations are equivalent up to a matrix transformation. We leverage linear identifiability to approximate an analytical solution of the IB problem. This approximation demonstrates that when class means exhibit $K$-simplex Equiangular Tight Frame (ETF) behavior (e.g., $K$=10 for CIFAR10 and $K$=100 for CIFAR100), they coincide with the critical phase transitions of the corresponding IB problem. The performance plateau occurs once the optimal solution for the IB problem includes all of these phase transitions. We also show that the resulting $K$-simplex ETF can be packed into a $K$-dimensional Gaussian distribution using supervised contrastive learning with a ResNet50 backbone. This geometry suggests that the $K$-simplex ETF learned by supervised contrastive learning approximates the optimal features for source coding. Hence, there is a direct correspondence between optimal IB solutions and generalization in contrastive learning.
- Abstract(参考訳): ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。
オープンな疑問は、神経崩壊がより一般化に繋がるかどうか、そしてもしそうなら、なぜ高原を越えてのトレーニングがどのように役立つのかである。
我々は、そのようなコンパクトな表現が存在するかどうかを調べ、その一般化との関係を明らかにするために、情報ボトルネック(IB)問題として神経崩壊をモデル化する。
分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
最近の研究では、同じ対照的な損失目標で独立に訓練された2つのディープニューラルネットワークが線形に識別可能であることが示されており、結果として得られる表現は行列変換に等価である。
We leverage linear identifiability to almost a analysisal solution of the IB problem。
この近似は、クラス平均が$K$-simplex Equiangular Tight Frame (ETF) の振る舞いを示す場合(例えば、CIFAR10は$K$=10、CIFAR100は$K$=100)、対応するIB問題の臨界位相遷移と一致することを示す。
IB問題に対する最適解がこれらすべての相転移を含むと、性能プラトーが生じる。
また、結果として得られる$K$-simplex ETFは、ResNet50バックボーンによる教師付きコントラスト学習を用いて、$K$-dimensional Gaussian分布にまとめることができることを示す。
この幾何は、教師付きコントラスト学習によって学習された$K$-simplex ETFが、ソース符号化の最適な特徴を近似することを示唆している。
したがって、最適ISB解とコントラスト学習における一般化の間には直接対応がある。
関連論文リスト
- Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent [83.85536329832722]
勾配勾配降下(SGD)は,$d$次元ハイパーキューブ上の$k$パリティ問題を効率的に解くことができることを示す。
次に、SGDでトレーニングされたニューラルネットワークがどのようにして、小さな統計的エラーで$k$-parityの問題を解決するかを実証する。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Mirror Descent Maximizes Generalized Margin and Can Be Implemented
Efficiently [34.438887960077025]
p$-$textsfGD$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを示す。
また、$p$-$textsfGD$はSGDと同じ方法で完全に並列であり、ディープニューラルネットワークのトレーニングに使用できることを示す。
論文 参考訳(メタデータ) (2022-05-25T14:33:13Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Gated Information Bottleneck for Generalization in Sequential
Environments [13.795129636387623]
深層ニューラルネットワークは、基礎となるデータ分布がトレーニングセットのそれと異なる場合、一般化が悪く、目に見えない環境に苦しむ。
ゲート情報ボトルネック(GIB)と呼ばれるニューラルネットワークに基づく新しいISBアプローチを提案する。
我々は、敵対的ロバスト性およびアウト・オブ・ディストリビューション検出において、他の一般的なニューラルネットワークベースのIBアプローチよりもGIBの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-10-12T14:58:38Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。