論文の概要: Linguistic Collapse: Neural Collapse in (Large) Language Models
- arxiv url: http://arxiv.org/abs/2405.17767v1
- Date: Tue, 28 May 2024 02:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:32:09.531871
- Title: Linguistic Collapse: Neural Collapse in (Large) Language Models
- Title(参考訳): 言語崩壊:(大規模)言語モデルにおける神経崩壊
- Authors: Robert Wu, Vardan Papyan,
- Abstract要約: スケーリングで発展する$mathcalNC$プロパティが一般化に結びついていることが分かる。
我々の研究は、言語モデリングの斬新でより困難な設定にまで拡張されるにつれて、$mathcalNC$の一般性を強調します。
- 参考スコア(独自算出の注目度): 6.454374656250522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural collapse ($\mathcal{NC}$) is a phenomenon observed in classification tasks where top-layer representations collapse into their class means, which become equinorm, equiangular and aligned with the classifiers. These behaviors -- associated with generalization and robustness -- would manifest under specific conditions: models are trained towards zero loss, with noise-free labels belonging to balanced classes, which do not outnumber the model's hidden dimension. Recent studies have explored $\mathcal{NC}$ in the absence of one or more of these conditions to extend and capitalize on the associated benefits of ideal geometries. Language modeling presents a curious frontier, as \textit{training by token prediction} constitutes a classification task where none of the conditions exist: the vocabulary is imbalanced and exceeds the embedding dimension; different tokens might correspond to similar contextual embeddings; and large language models (LLMs) in particular are typically only trained for a few epochs. This paper empirically investigates the impact of scaling the architectures and training of causal language models (CLMs) on their progression towards $\mathcal{NC}$. We find that $\mathcal{NC}$ properties that develop with scaling are linked to generalization. Moreover, there is evidence of some relationship between $\mathcal{NC}$ and generalization independent of scale. Our work therefore underscores the generality of $\mathcal{NC}$ as it extends to the novel and more challenging setting of language modeling. Downstream, we seek to inspire further research on the phenomenon to deepen our understanding of LLMs -- and neural networks at large -- and improve existing architectures based on $\mathcal{NC}$-related properties.
- Abstract(参考訳): ニューラル崩壊(Neural collapse)(\mathcal{NC}$)は、トップ層表現がクラス平均に崩壊する分類タスクで観察される現象で、等角的、等角的、分類器と整合する。
モデルはゼロ損失に向けて訓練され、バランスの取れたクラスに属するノイズフリーラベルは、モデルの隠れた次元を上回りません。
近年の研究では、理想的な測地線の利点を拡張・活用するために、これらの条件の1つ以上の欠如により$\mathcal{NC}$を探索している。
言語モデリングは興味深いフロンティアを示しており、 \textit{training by token prediction} は条件が存在しない分類タスクを構成している: 語彙は不均衡であり、埋め込み次元を超えた; 異なるトークンは同様の文脈の埋め込みに対応する; 特に大きな言語モデル(LLM)は、いくつかのエポックに対してのみ訓練される。
本稿では,アーキテクチャのスケールアップと言語モデル(CLM)の訓練が$\mathcal{NC}$への進行に与える影響を実証的に検討する。
スケーリングで発展する$\mathcal{NC}$プロパティが一般化に結びついていることが分かる。
さらに、$\mathcal{NC}$とスケールに依存しない一般化の間の何らかの関係の証拠がある。
したがって、我々の研究は、言語モデリングの斬新でより困難な設定にまで拡張され、$\mathcal{NC}$の一般性を強調している。
下流では、この現象に関するさらなる研究を刺激し、LLMの理解を深め、大規模なニューラルネットワークを開発し、$\mathcal{NC}$-relatedプロパティに基づいた既存のアーキテクチャを改善しようとしています。
関連論文リスト
- Neural Collapse for Cross-entropy Class-Imbalanced Learning with Unconstrained ReLU Feature Model [25.61363481391964]
トレーニングデータセットがクラス不均衡である場合、いくつかのNeural Collapse(NC)プロパティはもはや真実ではない。
本稿では,制約のないReLU特徴量モデルの下で,NCを不均衡状態に一般化し,クロスエントロピー損失の低減を図る。
重みは,各クラスのトレーニングサンプル数によって異なるが,重みはスケールおよび集中型クラス平均値に一致していることがわかった。
論文 参考訳(メタデータ) (2024-01-04T04:53:31Z) - Generalized Neural Collapse for a Large Number of Classes [33.46269920297418]
本研究では,実用的な深層ニューラルネットワークにおける一般化された神経崩壊の発生を実証するための実証的研究を行う。
球面制約のある非拘束特徴モデルの下で、一般化された神経崩壊が確実に発生することを示す理論的研究を行う。
論文 参考訳(メタデータ) (2023-10-09T02:27:04Z) - On the Role of Neural Collapse in Meta Learning Models for Few-shot
Learning [0.9729803206187322]
この研究は、数ショット学習のためのメタラーニングフレームワークにおける神経崩壊の性質を初めて探求し、理解したものである。
我々は,オムニグロットデータセットを数ショット設定で研究し,神経崩壊現象を研究する。
論文 参考訳(メタデータ) (2023-09-30T18:02:51Z) - Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class
Incremental Learning [120.53458753007851]
FSCIL(Few-shot class-incremental Learning)は、新しいセッションにおいて、新しいクラスごとにいくつかのトレーニングサンプルしかアクセスできないため、難しい問題である。
我々は最近発見された神経崩壊現象にインスパイアされたFSCILのこの不整合ジレンマに対処する。
我々は、FSCILのための神経崩壊誘発フレームワークを提案する。MiniImageNet、CUB-200、CIFAR-100データセットの実験により、提案したフレームワークが最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Differentiable Fuzzy $\mathcal{ALC}$: A Neural-Symbolic Representation
Language for Symbol Grounding [22.885795566729424]
ニューラルシンボリックコンピューティングは、堅牢なニューラルラーニングとサウンドシンボリック推論を単一のフレームワークに統合することを目的としている。
所望のセマンティクスを持つニューラルシンボリック表現言語として,微分可能なファジィ$mathcalALC$を提案する。
実験結果から,DF-$mathcalALC$と規則に基づく損失は,教師なし学習方式で画像オブジェクト検出器の性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-11-22T04:54:20Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。