Fugu-MT 論文翻訳(概要): Lost in Backpropagation: The LM Head is a Gradient Bottleneck

論文の概要: Lost in Backpropagation: The LM Head is a Gradient Bottleneck

arxiv url: http://arxiv.org/abs/2603.10145v1
Date: Tue, 10 Mar 2026 18:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:32.65415
Title: Lost in Backpropagation: The LM Head is a Gradient Bottleneck
Title（参考訳）: バックプロパゲーションの損失:LMヘッドはグラディエント・ボトルネック
Authors: Nathan Godey, Yoav Artzi,
Abstract要約: 我々は、ソフトマックスのボトルネックは表現力のボトルネックであるだけでなく、最適化のボトルネックでもあることを示した。ランク-$D$線形層による$V$次元勾配のバックプロパゲートは、避けられない圧縮を誘導する。この固有の欠陥は、モデルアーキテクチャとは無関係に、大規模なトレーニングの非効率性に寄与する、と我々は主張する。
参考スコア（独自算出の注目度）: 14.297816005348539
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The last layer of neural language models (LMs) projects output features of dimension $D$ to logits in dimension $V$, the size of the vocabulary, where usually $D \ll V$. This mismatch is known to raise risks of limited expressivity in neural LMs, creating a so-called softmax bottleneck. We show the softmax bottleneck is not only an expressivity bottleneck but also an optimization bottleneck. Backpropagating $V$-dimensional gradients through a rank-$D$ linear layer induces unavoidable compression, which alters the training feedback provided to the vast majority of the parameters. We present a theoretical analysis of this phenomenon and measure empirically that 95-99% of the gradient norm is suppressed by the output layer, resulting in vastly suboptimal update directions. We conduct controlled pretraining experiments showing that the gradient bottleneck makes trivial patterns unlearnable, and drastically affects the training dynamics of LLMs. We argue that this inherent flaw contributes to training inefficiencies at scale independently of the model architecture, and raises the need for new LM head designs.
Abstract（参考訳）: ニューラルネットワークモデル(LM)の最後の層は、ディメンション$D$の機能を、ディメンション$V$のロジットに出力する。このミスマッチは、神経性LMにおいて限られた表現力のリスクを高め、いわゆるソフトマックスボトルネックを生み出すことが知られている。我々は、ソフトマックスのボトルネックは表現力のボトルネックであるだけでなく、最適化のボトルネックでもあることを示した。ランク-$D$線形層による$V$次元勾配のバックプロパゲートは、避けられない圧縮を誘導し、パラメータの大部分に提供されるトレーニングフィードバックを変化させる。本稿では, この現象の理論的解析を行い, 勾配ノルムの95～99%が出力層によって抑制され, 大幅な更新方向が得られたことを実証した。我々は、勾配ボトルネックが自明なパターンを学習不能にし、LLMのトレーニング力学に大きな影響を及ぼすことを示す制御事前学習実験を行った。この固有の欠陥は、モデルアーキテクチャとは無関係に大規模にスケールする非効率な訓練に寄与し、新しいLMヘッド設計の必要性を高めている、と我々は主張する。

関連論文リスト

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions [31.988459260329353]
L(mathbfV mathbfa)$, $mathbfV と $mathbfa$ はそれぞれ学習可能な値行列とアテンションベクトルである。低エントロピー出力を特徴とする解に対する最適化上のこの勾配流は、ロジスティックな正方損失を含む様々な目的に対して偏極していることを明らかにする。
論文参考訳（メタデータ） (2026-03-06T13:08:56Z)
$\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。 $nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文参考訳（メタデータ） (2026-03-05T08:42:54Z)
Curvature-Weighted Capacity Allocation: A Minimum Description Length Framework for Layer-Adaptive Large Language Model Optimization [8.029535985033485]
大規模な言語モデルにおけるレイヤーのキャパシティは、一様ではなく、あるレイヤは損失削減に不均一に寄与し、他のレイヤは、ほぼ冗長である。影響関数に基づくレイヤスコアリングのような、この非均一性を利用する既存の手法は、感度推定を生成するが、それらをアロケーションやプルーニング決定に変換するための原則化されたメカニズムは提供しない。このギャップを,MDL(Minimum Description Length)の原理に基づく統一された曲率対応フレームワークで解決する。
論文参考訳（メタデータ） (2026-03-01T04:14:15Z)
Universal One-third Time Scaling in Learning Peaked Distributions [48.44706450307606]
大規模言語モデル(LLMs)の訓練は、損失が低速なパワー・ロー・コンバージェンスを示すこともあって、計算コストがかかる。本研究は,ソフトマックスとクロスエントロピーを用いて本質的にこの挙動が生じることを示す。
論文参考訳（メタデータ） (2026-02-03T16:06:18Z)
LoRIF: Low-Rank Influence Functions for Scalable Training Data Attribution [62.830878652285406]
トレーニングデータ属性は、モデルの予測に最も影響したトレーニング例を特定する。 LoRIFは、両方のボトルネックに対処するために、勾配の低ランク構造を利用する。数百万のサンプルでデータセットでトレーニングされた0.1Bから70Bパラメータのモデルで、LoRIFは最大20$timesのストレージ削減とクエリ時の高速化を実現している。
論文参考訳（メタデータ） (2026-01-29T16:18:34Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。 LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文参考訳（メタデータ） (2025-02-09T07:03:36Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。 BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文参考訳（メタデータ） (2021-06-17T10:14:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。