論文の概要: Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias
- arxiv url: http://arxiv.org/abs/2603.10123v1
- Date: Tue, 10 Mar 2026 18:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.641516
- Title: Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias
- Title(参考訳): 出生時中盤の喪失 : トランスフォーマー位置バイアスの厳密な理論
- Authors: Borun D Chowdhury,
- Abstract要約: この論文は、ミドル・イン・ザ・ロスト・イン・ザ・ミドル現象について、単一の正確な主張をしている。
それは、学習したSoftmaxアーティファクトや、RoPEのような位置エンコーディングの遠隔デカイに広く帰結している。
トレーニングされていないQwen2アーキテクチャとGPT-2アーキテクチャがStep0でこのU字形を示し、RoPEと同一か否かを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ``Lost in the Middle'' phenomenon -- a U-shaped performance curve where LLMs retrieve well from the beginning and end of a context but fail in the middle -- is widely attributed to learned Softmax artifacts or the distance-decay of positional encodings like RoPE. This paper makes a single, precise claim: \emph{the U-shape is already present at initialization, before any training or positional encoding takes effect.} It is an inherent geometric property of the causal decoder with residual connections. We model multi-layer causal attention as iterated powers of the Cesàro matrix and derive the exact closed-form influence density in the continuous limit. Causal masking forces a logarithmic divergence of gradient influence at the start of the prompt (the Primacy Tail), while residual connections create an isolated $\mathcal{O}(1)$ anchor at the final token (the Recency Delta). Between these extremes lies a factorial dead zone of order $\mathcal{O}(1/(H{-}1)!)$, where $H$ is the network depth, making middle-context retrieval and training structurally hostile. We validate empirically that untrained Qwen2 and GPT-2 architectures exhibit this U-shape at Step~0, and that it is identical with or without RoPE. Comparing initialized and pretrained networks, we show that standard training does not overcome the topological valley, confirming that the U-shape persists as an architectural baseline under standard pretraining objectives. We do not claim that this bias is insurmountable, nor that interventions such as RoPE modifications are useless. We establish what the baseline is and where it comes from, so that future efforts to overcome it can be precisely targeted.
- Abstract(参考訳): ロスト・イン・ザ・ミドル(Lost in the Middle')現象(LLMがコンテキストの開始と終了からうまく回復するが、中央で失敗するU字型のパフォーマンス曲線)は、学習したSoftmaxアーティファクトや、RoPEのような位置エンコーディングの遠隔デカイによるものと広く考えられている。
本稿では、訓練や位置符号化が効果を発揮する前に、すでに初期化時に \emph{the U-shape が存在するという、単一の正確な主張を行う。
} 残留接続を有する因果デコーダの固有幾何学的性質である。
我々は、チェサロ行列の反復パワーとして多層因果注意をモデル化し、連続極限における正確な閉形式影響密度を導出する。
因果マスクはプロンプトの開始時に勾配の影響の対数的ばらつき(プリマシー・テール)を強制し、残りの接続は最後のトークン(Recency Delta)で$\mathcal{O}(1)$アンカーを分離する。
これらの極端の間には$\mathcal{O}(1/(H{-}1)!
ここで$H$はネットワークの深さであり、中間コンテキストの検索と構造的に敵対的なトレーニングを行います。
我々は、トレーニングされていないQwen2アーキテクチャとGPT-2アーキテクチャがステップ~0でこのU字型を示し、RoPEと同一か否かを実証的に検証する。
初期化ネットワークと事前学習ネットワークを比較すると,標準トレーニングはトポロジカル・バレーを越えず,U字型が標準事前学習対象のアーキテクチャベースラインとして維持されることを確認した。
我々は、このバイアスが克服不可能であり、また、RoPE修正のような介入が役に立たないと主張する。
ベースラインが何か、どこから来たのかを確立することで、それを克服するための今後の取り組みを正確に目標にすることができるのです。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks [8.716913598251386]
類似した微分方程式に基づく2種類の不整形ネットワークのキャラクタリゼーションを求める。
我々は第1次補正を階層的相関に導出する。
これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供する。
論文 参考訳(メタデータ) (2023-10-18T16:15:10Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Prevalence of Neural Collapse during the terminal phase of deep learning
training [7.031848258307718]
終末訓練(TPT)によるDeepnets分類訓練の現代的実践
TPT中、トレーニングエラーは事実上ゼロであり、トレーニング損失はゼロにプッシュされる。
TPTによって誘導される対称的かつ非常に単純な幾何学は、より良い性能、より良い一般化、より良い解釈可能性を含む重要な利益をもたらす。
論文 参考訳(メタデータ) (2020-08-18T23:12:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Batch Normalization Provably Avoids Rank Collapse for Randomly
Initialised Deep Networks [15.499554384036673]
バッチ正規化は線形ネットワークとReLUネットワークの両方のランク崩壊を避ける効果的な戦略である。
我々は、深い線形ネットワークにおいて有意義な下位ランクを導出する。
経験的に、このランクのロバスト性はReLUネットに一般化されることを実証する。
論文 参考訳(メタデータ) (2020-03-03T17:21:07Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。