論文の概要: Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse
in Imbalanced Training
- arxiv url: http://arxiv.org/abs/2101.12699v1
- Date: Wed, 8 Sep 2021 18:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-06 16:26:45.012296
- Title: Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse
in Imbalanced Training
- Title(参考訳): 層ピールモデルによるディープニューラルネットワークの探索--不均衡トレーニングにおけるマイノリティ崩壊
- Authors: Cong Fang, Hangfeng He, Qi Long, Weijie J. Su
- Abstract要約: 解析的に抽出できない最適化プログラムである textitLayer-Peeled Model を導入する。
このモデルでは,よく訓練されたネットワークの特徴の多くを継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。
特に,本モデルでは,テキストマイノリティ崩壊(textitMinority Collapse)という,マイノリティクラスにおけるディープラーニングモデルの性能を根本的に制限する未知の現象が明らかにされている。
- 参考スコア(独自算出の注目度): 39.137793683411424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the \textit{Layer-Peeled Model}, a nonconvex yet
analytically tractable optimization program, in a quest to better understand
deep neural networks that are trained for a sufficiently long time. As the name
suggests, this new model is derived by isolating the topmost layer from the
remainder of the neural network, followed by imposing certain constraints
separately on the two parts of the network. We demonstrate that the
Layer-Peeled Model, albeit simple, inherits many characteristics of
well-trained neural networks, thereby offering an effective tool for explaining
and predicting common empirical patterns of deep learning training. First, when
working on class-balanced datasets, we prove that any solution to this model
forms a simplex equiangular tight frame, which in part explains the recently
discovered phenomenon of neural collapse \cite{papyan2020prevalence}. More
importantly, when moving to the imbalanced case, our analysis of the
Layer-Peeled Model reveals a hitherto unknown phenomenon that we term
\textit{Minority Collapse}, which fundamentally limits the performance of deep
learning models on the minority classes. In addition, we use the Layer-Peeled
Model to gain insights into how to mitigate Minority Collapse. Interestingly,
this phenomenon is first predicted by the Layer-Peeled Model before being
confirmed by our computational experiments.
- Abstract(参考訳): 本稿では,十分に長く訓練された深層ニューラルネットワークの理解を深めるため,非凸だが解析的に扱いやすい最適化プログラムである \textit{layer-peeled model} を提案する。
名前が示すように、この新しいモデルはニューラルネットワークの残りの部分から最上位層を分離し、続いてネットワークの2つの部分に対して一定の制約を課すことで導出される。
本研究では,ニューラルネットワークの多くの特徴を継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。
まず、クラスバランスのデータセットに取り組む際に、このモデルに対する任意の解が単純な等角的強弱フレームを形成することを証明し、これは部分的に、最近発見されたニューラル崩壊の現象を説明できる。
さらに重要なことは、不均衡なケースに移行すると、レイヤ・ペエルド・モデルの解析によって、少数クラスにおけるディープラーニングモデルの性能を根本的に制限する「textit{Minority Collapse}」という未知の現象が明らかになる。
さらに、レイヤピールモデルを使用して、マイノリティ崩壊を軽減する方法についての洞察を得ています。
興味深いことに、この現象は最初に層ピールモデルによって予測され、計算実験によって確認される。
関連論文リスト
- On the Role of Neural Collapse in Meta Learning Models for Few-shot
Learning [0.9729803206187322]
この研究は、数ショット学習のためのメタラーニングフレームワークにおける神経崩壊の性質を初めて探求し、理解したものである。
我々は,オムニグロットデータセットを数ショット設定で研究し,神経崩壊現象を研究する。
論文 参考訳(メタデータ) (2023-09-30T18:02:51Z) - Layer-wise Linear Mode Connectivity [56.53308504862033]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識を融合させる直感的な方法である。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Perturbation Analysis of Neural Collapse [24.94449183555951]
分類のためのディープニューラルネットワークのトレーニングには、ゼロトレーニングエラー点を超えるトレーニング損失を最小限にすることが含まれる。
最近の研究は、全ての最小化器が正確な崩壊を示す理想化された制約のない特徴モデルを通して、この挙動を分析している。
本稿では,この現象を,予め定義された特徴行列の近傍に留まらせることで,よりリッチなモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T17:46:03Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - The Self-Simplifying Machine: Exploiting the Structure of Piecewise
Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。
我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。
これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文 参考訳(メタデータ) (2020-12-02T16:02:14Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - An analytic theory of shallow networks dynamics for hinge loss
classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。
我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。
これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文 参考訳(メタデータ) (2020-06-19T16:25:29Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。