論文の概要: The Impact of Geometric Complexity on Neural Collapse in Transfer Learning
- arxiv url: http://arxiv.org/abs/2405.15706v1
- Date: Fri, 24 May 2024 16:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:11:11.245826
- Title: The Impact of Geometric Complexity on Neural Collapse in Transfer Learning
- Title(参考訳): 移動学習における幾何学的複雑度が神経崩壊に及ぼす影響
- Authors: Michael Munn, Benoit Dherin, Javier Gonzalvo,
- Abstract要約: 損失面の平坦さと神経崩壊は、最近、有用な事前学習指標として現れている。
実験と理論を通じて、事前学習されたネットワークの幾何学的複雑さに影響を与えるメカニズムが神経崩壊に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 6.554326244334867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many of the recent remarkable advances in computer vision and language models can be attributed to the success of transfer learning via the pre-training of large foundation models. However, a theoretical framework which explains this empirical success is incomplete and remains an active area of research. Flatness of the loss surface and neural collapse have recently emerged as useful pre-training metrics which shed light on the implicit biases underlying pre-training. In this paper, we explore the geometric complexity of a model's learned representations as a fundamental mechanism that relates these two concepts. We show through experiments and theory that mechanisms which affect the geometric complexity of the pre-trained network also influence the neural collapse. Furthermore, we show how this effect of the geometric complexity generalizes to the neural collapse of new classes as well, thus encouraging better performance on downstream tasks, particularly in the few-shot setting.
- Abstract(参考訳): 近年のコンピュータビジョンと言語モデルにおける顕著な進歩の多くは、大規模な基礎モデルの事前学習によるトランスファーラーニングの成功によるものである。
しかし、この経験的成功を説明する理論的枠組みは不完全であり、現在も研究の活発な領域である。
損失面の平坦さと神経崩壊は、最近、トレーニング前の基礎となる暗黙のバイアスに光を当てる有用な事前学習指標として現れている。
本稿では,これらの2つの概念を関連づける基本的なメカニズムとして,モデルが学習した表現の幾何学的複雑さについて考察する。
実験と理論を通じて、事前学習されたネットワークの幾何学的複雑さに影響を与えるメカニズムが神経崩壊に影響を及ぼすことを示す。
さらに、この幾何学的複雑性の影響が、新しいクラスの神経崩壊にどのように一般化するかを示し、特に数ショット設定において、下流タスクにおけるより良いパフォーマンスを促進させる。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Navigate Beyond Shortcuts: Debiased Learning through the Lens of Neural Collapse [19.279084204631204]
我々はニューラル・コラプスの調査を、不均衡な属性を持つバイアス付きデータセットに拡張する。
追加の訓練複雑性を伴わない回避ショートカット学習フレームワークを提案する。
ニューラル・コラプス構造に基づくよく設計されたショートカット素数では、モデルは単純なショートカットの追求を省略することが推奨される。
論文 参考訳(メタデータ) (2024-05-09T07:23:37Z) - A singular Riemannian Geometry Approach to Deep Neural Networks III. Piecewise Differentiable Layers and Random Walks on $n$-dimensional Classes [49.32130498861987]
本稿ではReLUのような非微分可能活性化関数の事例について検討する。
最近の2つの研究は、ニューラルネットワークを研究するための幾何学的枠組みを導入した。
本稿では,画像の分類と熱力学問題に関する数値実験を行った。
論文 参考訳(メタデータ) (2024-04-09T08:11:46Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Generalized Neural Collapse for a Large Number of Classes [33.46269920297418]
本研究では,実用的な深層ニューラルネットワークにおける一般化された神経崩壊の発生を実証するための実証的研究を行う。
球面制約のある非拘束特徴モデルの下で、一般化された神経崩壊が確実に発生することを示す理論的研究を行う。
論文 参考訳(メタデータ) (2023-10-09T02:27:04Z) - An Analytic Framework for Robust Training of Artificial Neural Networks [5.7365885616661405]
機械学習における問題の複雑な性質から、この現象を説明することは困難である。
本稿では, ニューラルネットワークに対する頑健な学習ルールを提供するために, 複素解析と正則性を利用する。
論文 参考訳(メタデータ) (2022-05-26T17:16:39Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。