論文の概要: Towards understanding neural collapse in supervised contrastive learning
with the information bottleneck method
- arxiv url: http://arxiv.org/abs/2305.11957v1
- Date: Fri, 19 May 2023 18:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 01:43:23.651700
- Title: Towards understanding neural collapse in supervised contrastive learning
with the information bottleneck method
- Title(参考訳): 情報ボトルネック法による教師付きコントラスト学習における神経崩壊の理解に向けて
- Authors: Siwei Wang and Stephanie E Palmer
- Abstract要約: ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。
分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
- 参考スコア(独自算出の注目度): 17.03168812784933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural collapse describes the geometry of activation in the final layer of a
deep neural network when it is trained beyond performance plateaus. Open
questions include whether neural collapse leads to better generalization and,
if so, why and how training beyond the plateau helps. We model neural collapse
as an information bottleneck (IB) problem in order to investigate whether such
a compact representation exists and discover its connection to generalization.
We demonstrate that neural collapse leads to good generalization specifically
when it approaches an optimal IB solution of the classification problem. Recent
research has shown that two deep neural networks independently trained with the
same contrastive loss objective are linearly identifiable, meaning that the
resulting representations are equivalent up to a matrix transformation. We
leverage linear identifiability to approximate an analytical solution of the IB
problem. This approximation demonstrates that when class means exhibit
$K$-simplex Equiangular Tight Frame (ETF) behavior (e.g., $K$=10 for CIFAR10
and $K$=100 for CIFAR100), they coincide with the critical phase transitions of
the corresponding IB problem. The performance plateau occurs once the optimal
solution for the IB problem includes all of these phase transitions. We also
show that the resulting $K$-simplex ETF can be packed into a $K$-dimensional
Gaussian distribution using supervised contrastive learning with a ResNet50
backbone. This geometry suggests that the $K$-simplex ETF learned by supervised
contrastive learning approximates the optimal features for source coding.
Hence, there is a direct correspondence between optimal IB solutions and
generalization in contrastive learning.
- Abstract(参考訳): ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。
オープンな質問は、神経崩壊がより良い一般化につながるかどうか、そしてもしそうなら、なぜ、そしてどのように訓練が高原を越えて役立つのかである。
神経崩壊を情報ボトルネック(ib)問題としてモデル化し,そのようなコンパクト表現が存在するかを調べ,一般化との関連性を見出す。
分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
最近の研究では、同じ対照的な損失目標で独立に訓練された2つのディープニューラルネットワークが線形同定可能であることが示されている。
ib問題の解析解を近似するために線形同定可能性を利用する。
この近似は、クラス平均が$K$-simplex Equiangular Tight Frame (ETF) の振る舞いを示す場合(例えば、CIFAR10は$K$=10、CIFAR100は$K$=100)、対応するIB問題の臨界位相遷移と一致することを示す。
IB問題に対する最適解がこれらすべての相転移を含むと、性能プラトーが発生する。
また、結果として得られる$K$-simplex ETFは、ResNet50バックボーンによる教師付きコントラスト学習を用いて、$K$-dimensional Gaussian分布にまとめることができることを示す。
この幾何学は、教師付きコントラスト学習で学んだ$k$-simplex etfがソースコーディングの最適な特徴を近似していることを示唆している。
したがって、最適ISB解とコントラスト学習における一般化の間には直接対応がある。
関連論文リスト
- Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent [83.85536329832722]
勾配勾配降下(SGD)は,$d$次元ハイパーキューブ上の$k$パリティ問題を効率的に解くことができることを示す。
次に、SGDでトレーニングされたニューラルネットワークがどのようにして、小さな統計的エラーで$k$-parityの問題を解決するかを実証する。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Mirror Descent Maximizes Generalized Margin and Can Be Implemented
Efficiently [34.438887960077025]
p$-$textsfGD$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを示す。
また、$p$-$textsfGD$はSGDと同じ方法で完全に並列であり、ディープニューラルネットワークのトレーニングに使用できることを示す。
論文 参考訳(メタデータ) (2022-05-25T14:33:13Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Gated Information Bottleneck for Generalization in Sequential
Environments [13.795129636387623]
深層ニューラルネットワークは、基礎となるデータ分布がトレーニングセットのそれと異なる場合、一般化が悪く、目に見えない環境に苦しむ。
ゲート情報ボトルネック(GIB)と呼ばれるニューラルネットワークに基づく新しいISBアプローチを提案する。
我々は、敵対的ロバスト性およびアウト・オブ・ディストリビューション検出において、他の一般的なニューラルネットワークベースのIBアプローチよりもGIBの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-10-12T14:58:38Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。