論文の概要: What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers
- arxiv url: http://arxiv.org/abs/2506.13688v1
- Date: Mon, 16 Jun 2025 16:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.084355
- Title: What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers
- Title(参考訳): 失われた高原で何が起こるか : 変圧器の急激な学習を理解する
- Authors: Pulkit Gopalani, Wei Hu,
- Abstract要約: 本研究は, 浅層変圧器におけるそのような力学のメカニズムについて考察する。
このモデルでは,高原ではしばしば解釈可能な部分解が生成され,出力に強い繰り返しバイアスが生じる。
これらの現象の繰り返しバイアスと表現の崩壊は,おもちゃの組立の人工物ではなく,PythiaやOLMoのような大規模言語モデルの初期訓練段階に現れていることを検証する。
- 参考スコア(独自算出の注目度): 9.575216516290237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Transformers on algorithmic tasks frequently demonstrates an intriguing abrupt learning phenomenon: an extended performance plateau followed by a sudden, sharp improvement. This work investigates the underlying mechanisms for such dynamics, primarily in shallow Transformers. We reveal that during the plateau, the model often develops an interpretable partial solution while simultaneously exhibiting a strong repetition bias in their outputs. This output degeneracy is accompanied by internal representation collapse, where hidden states across different tokens become nearly parallel. We further identify the slow learning of optimal attention maps as a key bottleneck. Hidden progress in attention configuration during the plateau precedes the eventual rapid convergence, and directly intervening on attention significantly alters plateau duration and the severity of repetition bias and representational collapse. We validate that these identified phenomena-repetition bias and representation collapse-are not artifacts of toy setups but also manifest in the early pre-training stage of large language models like Pythia and OLMo.
- Abstract(参考訳): アルゴリズム上のタスクをトレーニングするトランスフォーマーは、しばしば興味深い急激な学習現象を示します。
本研究は, 浅層変圧器におけるそのような力学のメカニズムについて考察する。
このモデルでは,高原ではしばしば解釈可能な部分解が生成され,出力に強い繰り返しバイアスが生じる。
この出力縮退には内部表現の崩壊が伴い、異なるトークンにまたがる隠れ状態はほぼ平行になる。
さらに、最適注意マップの学習の遅さを重要なボトルネックとして挙げる。
高原の急激な収束に先立って隠れた注意構成の進行が進行し、注意に直接介入することで、高原の持続時間と繰り返しバイアスの重症度と表現的崩壊が著しく変化する。
これらの現象の繰り返しバイアスと表現の崩壊は,おもちゃの組立の人工物ではなく,PythiaやOLMoのような大規模言語モデルの初期訓練段階に現れていることを検証する。
関連論文リスト
- The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Abrupt Learning in Transformers: A Case Study on Matrix Completion [15.210510215283882]
マスク付き言語モデリング(MLM)タスクとして低ランク行列補完問題を定式化する。
BERTモデルをトレーニングして,この課題を低誤差で解決できることが示される。
また、個々のモデルコンポーネントのトレーニングダイナミクスを分析し、突然の損失の減少を理解する。
論文 参考訳(メタデータ) (2024-10-29T17:08:06Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers [2.1572258716881905]
我々は、トレーニングの過程でトークンレベルのスパーシリティがどのように進化し、より広いスパーシリティパターンにどのように結びつくかを探る。
特に、ネットワークの第一層と最後の層は、多くの点で、空間性との関係を逆転させることを実証する。
さらに、ReLU次元の「オフ」現象を探求し、「ニューロン死」がトレーニングのダイナミクスによって引き起こされていることを示す証拠を示す。
論文 参考訳(メタデータ) (2024-07-10T17:10:10Z) - Diagnosing Catastrophe: Large parts of accuracy loss in continual
learning can be accounted for by readout misalignment [0.0]
データ分散の変更に関するニューラルネットワークのトレーニングは、古いタスクのパフォーマンスを急速に低下させる。
本稿では,この性能を損なう表現的変化について検討し,この現象を考慮に入れた3つの異なる過程を同定する。
論文 参考訳(メタデータ) (2023-10-09T11:57:46Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Dissecting Lottery Ticket Transformers: Structural and Behavioral Study
of Sparse Neural Machine Translation [0.0]
抽選券仮説に関する最近の研究は、BLEUを維持しながら、NTTのために非常にスパースなトランスフォーマーを生み出している。
より低マグニチュード重みを持つトランスフォーマーを探索することにより、複雑なセマンティック情報が最初に分解されることが分かる。
内部の活性化の解析により、高い層はプルーニングの過程で最も分散し、密度の高い層よりも徐々に複雑になることが判明した。
論文 参考訳(メタデータ) (2020-09-17T02:08:45Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。