論文の概要: Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse
in Imbalanced Training
- arxiv url: http://arxiv.org/abs/2101.12699v1
- Date: Wed, 8 Sep 2021 18:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-06 16:26:45.012296
- Title: Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse
in Imbalanced Training
- Title(参考訳): 層ピールモデルによるディープニューラルネットワークの探索--不均衡トレーニングにおけるマイノリティ崩壊
- Authors: Cong Fang, Hangfeng He, Qi Long, Weijie J. Su
- Abstract要約: 解析的に抽出できない最適化プログラムである textitLayer-Peeled Model を導入する。
このモデルでは,よく訓練されたネットワークの特徴の多くを継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。
特に,本モデルでは,テキストマイノリティ崩壊(textitMinority Collapse)という,マイノリティクラスにおけるディープラーニングモデルの性能を根本的に制限する未知の現象が明らかにされている。
- 参考スコア(独自算出の注目度): 39.137793683411424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the \textit{Layer-Peeled Model}, a nonconvex yet
analytically tractable optimization program, in a quest to better understand
deep neural networks that are trained for a sufficiently long time. As the name
suggests, this new model is derived by isolating the topmost layer from the
remainder of the neural network, followed by imposing certain constraints
separately on the two parts of the network. We demonstrate that the
Layer-Peeled Model, albeit simple, inherits many characteristics of
well-trained neural networks, thereby offering an effective tool for explaining
and predicting common empirical patterns of deep learning training. First, when
working on class-balanced datasets, we prove that any solution to this model
forms a simplex equiangular tight frame, which in part explains the recently
discovered phenomenon of neural collapse \cite{papyan2020prevalence}. More
importantly, when moving to the imbalanced case, our analysis of the
Layer-Peeled Model reveals a hitherto unknown phenomenon that we term
\textit{Minority Collapse}, which fundamentally limits the performance of deep
learning models on the minority classes. In addition, we use the Layer-Peeled
Model to gain insights into how to mitigate Minority Collapse. Interestingly,
this phenomenon is first predicted by the Layer-Peeled Model before being
confirmed by our computational experiments.
- Abstract(参考訳): 本稿では,十分に長く訓練された深層ニューラルネットワークの理解を深めるため,非凸だが解析的に扱いやすい最適化プログラムである \textit{layer-peeled model} を提案する。
名前が示すように、この新しいモデルはニューラルネットワークの残りの部分から最上位層を分離し、続いてネットワークの2つの部分に対して一定の制約を課すことで導出される。
本研究では,ニューラルネットワークの多くの特徴を継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。
まず、クラスバランスのデータセットに取り組む際に、このモデルに対する任意の解が単純な等角的強弱フレームを形成することを証明し、これは部分的に、最近発見されたニューラル崩壊の現象を説明できる。
さらに重要なことは、不均衡なケースに移行すると、レイヤ・ペエルド・モデルの解析によって、少数クラスにおけるディープラーニングモデルの性能を根本的に制限する「textit{Minority Collapse}」という未知の現象が明らかになる。
さらに、レイヤピールモデルを使用して、マイノリティ崩壊を軽減する方法についての洞察を得ています。
興味深いことに、この現象は最初に層ピールモデルによって予測され、計算実験によって確認される。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - On the Role of Neural Collapse in Meta Learning Models for Few-shot
Learning [0.9729803206187322]
この研究は、数ショット学習のためのメタラーニングフレームワークにおける神経崩壊の性質を初めて探求し、理解したものである。
我々は,オムニグロットデータセットを数ショット設定で研究し,神経崩壊現象を研究する。
論文 参考訳(メタデータ) (2023-09-30T18:02:51Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Perturbation Analysis of Neural Collapse [24.94449183555951]
分類のためのディープニューラルネットワークのトレーニングには、ゼロトレーニングエラー点を超えるトレーニング損失を最小限にすることが含まれる。
最近の研究は、全ての最小化器が正確な崩壊を示す理想化された制約のない特徴モデルを通して、この挙動を分析している。
本稿では,この現象を,予め定義された特徴行列の近傍に留まらせることで,よりリッチなモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T17:46:03Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - The Self-Simplifying Machine: Exploiting the Structure of Piecewise
Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。
我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。
これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文 参考訳(メタデータ) (2020-12-02T16:02:14Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - An analytic theory of shallow networks dynamics for hinge loss
classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。
我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。
これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文 参考訳(メタデータ) (2020-06-19T16:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。