論文の概要: Linguistic Collapse: Neural Collapse in (Large) Language Models
- arxiv url: http://arxiv.org/abs/2405.17767v2
- Date: Thu, 07 Nov 2024 03:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:37:05.644121
- Title: Linguistic Collapse: Neural Collapse in (Large) Language Models
- Title(参考訳): 言語崩壊:(大規模)言語モデルにおける神経崩壊
- Authors: Robert Wu, Vardan Papyan,
- Abstract要約: スケール(および正規化)で発展する$mathcalNC$プロパティは一般化と関連している。
我々の研究は、言語モデリングの斬新でより困難な設定にまで拡張されるにつれて、$mathcalNC$の一般性を強調します。
- 参考スコア(独自算出の注目度): 6.454374656250522
- License:
- Abstract: Neural collapse ($\mathcal{NC}$) is a phenomenon observed in classification tasks where top-layer representations collapse into their class means, which become equinorm, equiangular and aligned with the classifiers. These behaviors -- associated with generalization and robustness -- would manifest under specific conditions: models are trained towards zero loss, with noise-free labels belonging to balanced classes, which do not outnumber the model's hidden dimension. Recent studies have explored $\mathcal{NC}$ in the absence of one or more of these conditions to extend and capitalize on the associated benefits of ideal geometries. Language modeling presents a curious frontier, as \textit{training by token prediction} constitutes a classification task where none of the conditions exist: the vocabulary is imbalanced and exceeds the embedding dimension; different tokens might correspond to similar contextual embeddings; and large language models (LLMs) in particular are typically only trained for a few epochs. This paper empirically investigates the impact of scaling the architectures and training of causal language models (CLMs) on their progression towards $\mathcal{NC}$. We find that $\mathcal{NC}$ properties that develop with scale (and regularization) are linked to generalization. Moreover, there is evidence of some relationship between $\mathcal{NC}$ and generalization independent of scale. Our work thereby underscores the generality of $\mathcal{NC}$ as it extends to the novel and more challenging setting of language modeling. Downstream, we seek to inspire further research on the phenomenon to deepen our understanding of LLMs -- and neural networks at large -- and improve existing architectures based on $\mathcal{NC}$-related properties. Our code is hosted on GitHub at https://github.com/rhubarbwu/linguistic-collapse .
- Abstract(参考訳): ニューラル崩壊(Neural collapse)(\mathcal{NC}$)は、トップ層表現がクラス平均に崩壊する分類タスクで観察される現象で、等角的、等角的、分類器と整合する。
モデルはゼロ損失に向けて訓練され、バランスの取れたクラスに属するノイズフリーラベルは、モデルの隠れた次元を上回りません。
近年の研究では、理想的な測地線の利点を拡張・活用するために、これらの条件の1つ以上の欠如により$\mathcal{NC}$を探索している。
言語モデリングは興味深いフロンティアを示しており、 \textit{training by token prediction} は条件が存在しない分類タスクを構成している: 語彙は不均衡であり、埋め込み次元を超えた; 異なるトークンは同様の文脈の埋め込みに対応する; 特に大きな言語モデル(LLM)は、いくつかのエポックに対してのみ訓練される。
本稿では,アーキテクチャのスケールアップと言語モデル(CLM)の訓練が$\mathcal{NC}$への進行に与える影響を実証的に検討する。
スケール(および正規化)で発展する$\mathcal{NC}$プロパティは一般化と関連している。
さらに、$\mathcal{NC}$とスケールに依存しない一般化の間の何らかの関係の証拠がある。
我々の研究は、言語モデリングの斬新でより困難な設定にまで拡張されるにつれて、$\mathcal{NC}$の一般性を強調します。
下流では、この現象に関するさらなる研究を刺激し、LLMの理解を深め、大規模なニューラルネットワークを開発し、$\mathcal{NC}$-relatedプロパティに基づいた既存のアーキテクチャを改善しようとしています。
私たちのコードはGitHubでhttps://github.com/rhubarbwu/linguistic-collapseでホストされています。
関連論文リスト
- Neural Collapse for Cross-entropy Class-Imbalanced Learning with Unconstrained ReLU Feature Model [25.61363481391964]
トレーニングデータセットがクラス不均衡である場合、いくつかのNeural Collapse(NC)プロパティはもはや真実ではない。
本稿では,制約のないReLU特徴量モデルの下で,NCを不均衡状態に一般化し,クロスエントロピー損失の低減を図る。
重みは,各クラスのトレーニングサンプル数によって異なるが,重みはスケールおよび集中型クラス平均値に一致していることがわかった。
論文 参考訳(メタデータ) (2024-01-04T04:53:31Z) - On the Role of Neural Collapse in Meta Learning Models for Few-shot
Learning [0.9729803206187322]
この研究は、数ショット学習のためのメタラーニングフレームワークにおける神経崩壊の性質を初めて探求し、理解したものである。
我々は,オムニグロットデータセットを数ショット設定で研究し,神経崩壊現象を研究する。
論文 参考訳(メタデータ) (2023-09-30T18:02:51Z) - GraphSHA: Synthesizing Harder Samples for Class-Imbalanced Node
Classification [64.85392028383164]
クラス不均衡は、いくつかのクラスが他のクラスよりもはるかに少ないインスタンスを持つ現象である。
近年の研究では、既成のグラフニューラルネットワーク(GNN)が、マイナーなクラスサンプルを以下に表現することが確認されている。
HArderマイナーサンプルの合成によるGraphSHAの汎用化を提案する。
論文 参考訳(メタデータ) (2023-06-16T04:05:58Z) - Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class
Incremental Learning [120.53458753007851]
FSCIL(Few-shot class-incremental Learning)は、新しいセッションにおいて、新しいクラスごとにいくつかのトレーニングサンプルしかアクセスできないため、難しい問題である。
我々は最近発見された神経崩壊現象にインスパイアされたFSCILのこの不整合ジレンマに対処する。
我々は、FSCILのための神経崩壊誘発フレームワークを提案する。MiniImageNet、CUB-200、CIFAR-100データセットの実験により、提案したフレームワークが最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Differentiable Fuzzy $\mathcal{ALC}$: A Neural-Symbolic Representation
Language for Symbol Grounding [22.885795566729424]
ニューラルシンボリックコンピューティングは、堅牢なニューラルラーニングとサウンドシンボリック推論を単一のフレームワークに統合することを目的としている。
所望のセマンティクスを持つニューラルシンボリック表現言語として,微分可能なファジィ$mathcalALC$を提案する。
実験結果から,DF-$mathcalALC$と規則に基づく損失は,教師なし学習方式で画像オブジェクト検出器の性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-11-22T04:54:20Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - For self-supervised learning, Rationality implies generalization,
provably [13.526562756159809]
自己超越法を用いて得られた分類器の一般化ギャップに新たな上限を証明した。
我々は,CIFAR-10 や ImageNet 上の多くの一般的な表現学習ベース分類器に対して,我々の境界は空白ではないことを示す。
論文 参考訳(メタデータ) (2020-10-16T17:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。