論文の概要: Learning Less Is More: Premature Upper-Layer Attention Specialization Hurts Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2605.10504v1
- Date: Mon, 11 May 2026 13:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.565663
- Title: Learning Less Is More: Premature Upper-Layer Attention Specialization Hurts Language Model Pretraining
- Title(参考訳): 学習の少なさ - 未熟な上層アテンションスペシャライゼーション
- Authors: Jinchang Zhu, Jindong Li, Yuwen Hao, Chengyu Zou, Rong Fu, Menglin Yang,
- Abstract要約: 因果デコーダブロックは階層的であり、下位層は上位層が関与する残基を構築する。
我々は,GPT事前訓練における障害モードを同定する:上層は,下層機能を安定化させる前に,鋭い注意パターンにコミットする。
早期訓練中に上層Q/Kプロジェクションのみを一時的に遅くすると、他のパラメータを変更することなく最終的なパープレキシティと下流の精度が向上する。
- 参考スコア(独自算出の注目度): 4.4820697228026845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A causal-decoder block is hierarchical: lower layers build the residual basis that upper layers attend over. We identify a failure mode in GPT pretraining: upper layers commit to sharp attention patterns before lower-layer features stabilize. We call this premature upper-layer attention specialization. Temporarily slowing only upper-layer Q/K projections during early training improves final perplexity and downstream accuracy without altering other parameters; it prevents upper attention from collapsing onto an immature residual basis. In LLaMA-style blocks, the same intervention is nearly unnecessary. Through ablations, we isolate multiplicative gated FFNs (not RMSNorm or bias removal) as the component that suppresses the upstream residual writes driving the failure. A pathwise analysis unifies both findings: the learning-rate intervention reduces a step-size factor, while gated FFNs reduce a residual-energy factor on the same growth pathway. Our results identify upper-layer Q/K timing as a concrete interaction point between decoder architecture and optimization.
- Abstract(参考訳): 因果デコーダブロックは階層的であり、下位層は上位層が関与する残基を構築する。
我々は,GPT事前訓練における障害モードを同定する:上層は,下層機能を安定化させる前に,鋭い注意パターンにコミットする。
これを未熟な上層アテンション専門化と呼ぶ。
早期訓練中に上層Q/Kプロジェクションのみを一時的に遅くすると、他のパラメータを変更することなく最終難易度と下流精度が向上し、上層注意が未熟な残差ベースに崩壊するのを防ぐ。
LLaMAスタイルのブロックでは、同じ介入はほとんど不要である。
アブレーションにより、障害を駆動する上流残留書き込みを抑制するコンポーネントとして、乗法ゲートFFN(RMSNormやバイアス除去ではない)を分離する。
学習速度の介入はステップサイズの因子を減少させ、ゲート型FFNは成長経路上の残留エネルギー因子を減少させる。
以上の結果から,上層Q/Kタイミングをデコーダアーキテクチャと最適化の具体的な相互作用点として同定した。
関連論文リスト
- Layer Collapse in Diffusion Language Models [54.880703002010144]
拡散言語モデル (DLM) は自己回帰言語モデル (AR) の代替として登場した。
DLMの層崩壊は, 過度なトレーニングによるものではなく, 過度なトレーニングによるものであることを示す。
私たちの発見は、非常に実践的な意味を持っている。
論文 参考訳(メタデータ) (2026-05-07T14:39:40Z) - Cumulative-Goodness Free-Riding in Forward-Forward Networks: Real, Repairable, but Not Accuracy-Dominant [0.0]
フォワード・フォワード(FF)トレーニングでは、各レイヤが局所的な善良さの基準から学ぶことができる。
累積・良さのバリエーションでは、後続のレイヤは、以前のレイヤがすでに部分的に分離したタスクを継承することができる。
我々はこの現象を層フリーライディングとして定式化する。
論文 参考訳(メタデータ) (2026-05-07T13:24:58Z) - DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning [6.468843780300177]
モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
論文 参考訳(メタデータ) (2025-10-10T21:37:49Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Minimizing Chebyshev Prototype Risk Magically Mitigates the Perils of Overfitting [1.6574413179773757]
クラス内特徴相関を低減し,クラス間特徴距離を最大化する多成分損失関数を開発した。
我々は,Chebyshev Prototype Risk (CPR) という用語を明示的なCPR損失関数に限定して実装する。
トレーニングアルゴリズムは、多くの設定において、以前のアプローチの過度な適合を減らし、改善する。
論文 参考訳(メタデータ) (2024-04-10T15:16:04Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。