論文の概要: Pushing Boundaries: Mixup's Influence on Neural Collapse
- arxiv url: http://arxiv.org/abs/2402.06171v1
- Date: Fri, 9 Feb 2024 04:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:07:52.784067
- Title: Pushing Boundaries: Mixup's Influence on Neural Collapse
- Title(参考訳): 境界を押し上げる:mixupの神経崩壊への影響
- Authors: Quinn Fisher, Haoming Meng, Vardan Papyan
- Abstract要約: Mixupは、深層ニューラルネットワークの堅牢性とキャリブレーションを強化するために、トレーニングインスタンスと各ラベルの凸結合を利用するデータ拡張戦略である。
本研究では,ミックスアップを受ける深層ネットワークにおけるトレーニングデータの最終層活性化について検討した。
ここでは,Mixupの最終層活性化が,期待と異なる独特の構成に主に収束していることを示す。
- 参考スコア(独自算出の注目度): 3.6919724596215615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixup is a data augmentation strategy that employs convex combinations of
training instances and their respective labels to augment the robustness and
calibration of deep neural networks. Despite its widespread adoption, the
nuanced mechanisms that underpin its success are not entirely understood. The
observed phenomenon of Neural Collapse, where the last-layer activations and
classifier of deep networks converge to a simplex equiangular tight frame
(ETF), provides a compelling motivation to explore whether mixup induces
alternative geometric configurations and whether those could explain its
success. In this study, we delve into the last-layer activations of training
data for deep networks subjected to mixup, aiming to uncover insights into its
operational efficacy. Our investigation, spanning various architectures and
dataset pairs, reveals that mixup's last-layer activations predominantly
converge to a distinctive configuration different than one might expect. In
this configuration, activations from mixed-up examples of identical classes
align with the classifier, while those from different classes delineate
channels along the decision boundary. Moreover, activations in earlier layers
exhibit patterns, as if trained with manifold mixup. These findings are
unexpected, as mixed-up features are not simple convex combinations of feature
class means (as one might get, for example, by training mixup with the mean
squared error loss). By analyzing this distinctive geometric configuration, we
elucidate the mechanisms by which mixup enhances model calibration. To further
validate our empirical observations, we conduct a theoretical analysis under
the assumption of an unconstrained features model, utilizing the mixup loss.
Through this, we characterize and derive the optimal last-layer features under
the assumption that the classifier forms a simplex ETF.
- Abstract(参考訳): Mixupは、深層ニューラルネットワークの堅牢性とキャリブレーションを強化するために、トレーニングインスタンスと各ラベルの凸結合を利用するデータ拡張戦略である。
広く採用されているにもかかわらず、その成功を支えるニュアンスドメカニズムは完全には理解されていない。
ディープネットワークの最終層アクティベーションと分類器がsimplex equiangular tight frame(etf)に収束する、観察された神経崩壊現象は、mixupが別の幾何学的構成を誘導するかどうか、そしてそれがその成功を説明することができるかどうかを探究する説得力のある動機を与える。
本研究では,深層ネットワークを対象としたトレーニングデータの最終層活性化について検討し,その運用効率に関する知見を明らかにすることを目的とした。
さまざまなアーキテクチャとデータセットのペアにまたがる調査により、mixupのラストレイヤアクティベーションは、予想と異なる特徴的な構成に主に収束していることが分かりました。
この構成では、同一クラスの混成例からのアクティベーションは分類器と一致し、異なるクラスからのアクティベーションは決定境界に沿ったチャネルを規定する。
さらに、以前の層での活性化は、まるで多様体ミックスアップで訓練されたようなパターンを示す。
これらの発見は予想外であり、ミックスアップ機能は機能クラス平均の単純な凸結合ではない(例えば平均二乗誤差損失でミックスアップを訓練することで得られる)。
この特異な幾何学的構成を解析することにより,mixupがモデルのキャリブレーションを促進するメカニズムを解明する。
実験結果をさらに検証するため,混合損失を利用して,制約のない特徴モデルの仮定の下で理論的解析を行う。
これにより、分類器が単純なETFを形成するという仮定のもと、最適な最終層特徴を特徴づけ、導出する。
関連論文リスト
- Uncertainty estimation via ensembles of deep learning models and dropout layers for seismic traces [27.619194576741673]
本研究では, 第一運動極性に基づく地震波形の分類を行うために, 畳み込みニューラルネットワーク(CNN)を開発した。
我々は不確実性を推定するためにネットワークのアンサンブルを構築した。
ネットワークのアンサンブルの不確実性推定能力は,ドロップアウト層を用いて向上することができる。
論文 参考訳(メタデータ) (2024-10-08T15:22:15Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP) [0.0]
CLOPは、クラス埋め込み間の線形部分空間の形成を促進することにより、神経崩壊を防止するために設計された、新しい半教師付き損失関数である。
CLOPは性能を向上し,学習速度やバッチサイズにまたがる安定性が向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Ex uno plures: Splitting One Model into an Ensemble of Subnetworks [18.814965334083425]
そこで本研究では,プレニング戦略によって計算され,独立に訓練された非重なり合っていないドロップアウトマスクに対応する,作業のアンサンブルを計算する戦略を提案する。
提案手法は,精度と不確実性の両方において,標準的なディープアンサンブルと同等に動作可能であることを示す。
我々は、ニューラルネットワークを効率的にアンサンブルする最近提案されたアプローチよりも、サブネットワークのアンサンブルが一貫して優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-09T01:49:49Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Analyzing Overfitting under Class Imbalance in Neural Networks for Image
Segmentation [19.259574003403998]
画像分割では、ニューラルネットワークは小さな構造物の前景サンプルに過剰に適合する可能性がある。
本研究では,ネットワークの動作を検査することにより,クラス不均衡下でのオーバーフィッティング問題に対する新たな知見を提供する。
論文 参考訳(メタデータ) (2021-02-20T14:57:58Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。