論文の概要: Evidence of Phase Transitions in Small Transformer-Based Language Models
- arxiv url: http://arxiv.org/abs/2511.12768v1
- Date: Sun, 16 Nov 2025 20:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.530258
- Title: Evidence of Phase Transitions in Small Transformer-Based Language Models
- Title(参考訳): 小形変圧器に基づく言語モデルにおける相転移の証拠
- Authors: Noah Hong, Tao Hong,
- Abstract要約: 大規模言語モデル(LLM)における創発的能力の起源として相転移が提案されている。
相転移は大きなモデルに固有のものなのか、それとも小さなトランスフォーマーベースの言語モデルでも観察できるのか?
その結果, 相転移再構成は言語モデルトレーニングの一般的な特徴であり, モデストモデルにおいても観察可能であり, コヒーレンスの発生とともに驚くほど早く発生することが示唆された。
- 参考スコア(独自算出の注目度): 0.8081305315045554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phase transitions have been proposed as the origin of emergent abilities in large language models (LLMs), where new capabilities appear abruptly once models surpass critical thresholds of scale. Prior work, such as that of Wei et al., demonstrated these phenomena under model and data scaling, with transitions revealed after applying a log scale to training compute. In this work, we ask three complementary questions: (1) Are phase transitions unique to large models, or can they also be observed in small transformer-based language models? (2) Can such transitions be detected directly in linear training space, rather than only after log rescaling? and (3) Can these transitions emerge at early stages of training? To investigate, we train a small GPT-style transformer on a character-level corpus and analyze the evolution of vocabulary usage throughout training. We track the average word length, the number of correct versus incorrect words, and shifts in vocabulary diversity. Building on these measures, we apply Poisson and sub-Poisson statistics to quantify how words connect and reorganize. This combined analysis reveals a distinct transition point during training. Notably, these transitions are not apparent in standard loss or validation curves, but become visible through our vocabulary- and statistics-based probes. Our findings suggest that phase-transition reorganizations are a general feature of language model training, observable even in modest models, detectable directly in linear training space, and occurring surprisingly early as coherence emerges. This perspective provides new insight into the nonlinear dynamics of language model training and underscores the importance of tailored metrics for uncovering phase transition behaviors
- Abstract(参考訳): 大規模言語モデル(LLM)における創発的能力の起源として相転移が提案されている。
Weiらによる以前の研究は、これらの現象をモデルとデータスケーリングの下で実証し、計算のトレーニングにログスケールを適用した後の遷移を明らかにした。
1) 位相遷移は大きなモデルに固有のものなのか、それとも小さなトランスフォーマーベースの言語モデルでも観察できるのか?
2) ログ再スケーリング後にのみではなく,直線的トレーニング空間でこのような遷移を直接検出できるのか?
(3)これらの移行は、トレーニングの初期段階に現れ得るか?
そこで本研究では,文字レベルのコーパス上に小さなGPT型トランスフォーマーをトレーニングし,学習を通して語彙使用の進化を分析した。
平均単語長、正しい単語と間違った単語の数、語彙の多様性の変化を追跡します。
これらの尺度に基づいて、単語の接続と再編成の方法の定量化のために、Poisson と sub-Poisson の統計を適用した。
この組み合わせ分析により、トレーニング中に異なる遷移点が明らかになる。
特に、これらの遷移は標準的な損失曲線や検証曲線では明らかではないが、我々の語彙と統計に基づくプローブを通して見えるようになる。
その結果, 位相遷移再構成は言語モデルトレーニングの一般的な特徴であり, 控えめなモデルでも観測可能であり, 直線的トレーニング空間で直接検出可能であり, 一貫性の出現とともに驚くほど早く発生することが示唆された。
この視点は、言語モデルトレーニングの非線形ダイナミクスに関する新たな洞察を与え、相転移の振る舞いを明らかにするための調整されたメトリクスの重要性を浮き彫りにする。
関連論文リスト
- Evolution of Concepts in Language Model Pre-Training [53.994470178155105]
クロスコーダと呼ばれるスパース辞書学習手法を用いて,事前学習スナップショットにおける線形解釈可能な特徴の進化を追跡する。
ほとんどの機能が特定のポイントの周りに形成され始め、さらに複雑なパターンが後のトレーニング段階に現れます。
論文 参考訳(メタデータ) (2025-09-21T18:53:12Z) - Echoes of BERT: Do Modern Language Models Rediscover the Classical NLP Pipeline? [4.991808275998526]
従来のBERTologyに基づいて、古典的アーキテクチャ(BERT, DeBERTa, GPT-2)から現代の大規模言語モデル(Pythia, OLMo-2, Gemma-2, Qwen2.5, Llama-3.1)にまたがる25のモデルを分析する。
階層的な組織は現代のモデルに留まり、初期レイヤは構文をキャプチャし、中間レイヤはセマンティクスとエンティティレベルの情報を扱い、後のレイヤは談話現象をエンコードしている。
語彙情報は初期層で直線的に集中するが、ネットワークでは非線形に深くなっているのに対して、屈折情報はすべての層で直線的にアクセス可能である。
論文 参考訳(メタデータ) (2025-06-02T18:01:56Z) - How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - First numerical observation of the Berezinskii-Kosterlitz-Thouless transition in language models [1.4061979259370274]
自然言語モデルの枠組みにおける不明瞭な相転移を数値的に示す。
我々は相転移をベレジンスキー-コステリッツ-トゥーレス転移の変種として同定する。
論文 参考訳(メタデータ) (2024-12-02T07:32:32Z) - Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Phase Transitions in the Output Distribution of Large Language Models [0.9374652839580183]
物理系において、温度などのパラメータの変化は、ある物質の状態から別の状態への急激な変化である相転移を誘導することができる。
相転移を識別するタスクは、人間の分析とシステムの事前理解を必要とし、どの低次元特性をモニターし分析するかを絞り込む。
近年,データから位相遷移を自動的に検出する統計手法が物理学界で提案されている。
統計的距離を用いて生成した出力の分布変化を定量化し、次点上の確率分布にアクセスして効率的に推定する。
論文 参考訳(メタデータ) (2024-05-27T12:04:36Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。