論文の概要: A Residual-Aware Theory of Position Bias in Transformers
- arxiv url: http://arxiv.org/abs/2602.16837v1
- Date: Wed, 18 Feb 2026 20:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.324936
- Title: A Residual-Aware Theory of Position Bias in Transformers
- Title(参考訳): 変圧器の位置バイアスの残留認識理論
- Authors: Hanna Herasimchyk, Robin Labryga, Tomislav Prusina, Sören Laue,
- Abstract要約: 我々はTransformerモデルがトークンの位置を体系的に好んでいることを示す。
因果変換器は早期・後期のトークンに集中してU字型位置バイアスを生じさせることを示す。
この結果は、Lost-in-the-Middle現象の原則的なアーキテクチャ的説明を提供する。
- 参考スコア(独自算出の注目度): 2.9332247106953098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models systematically favor certain token positions, yet the architectural origins of this position bias remain poorly understood. Under causal masking at infinite depth, prior theoretical analyses of attention rollout predict an inevitable collapse of attention onto the first token. Such collapse, however, does not occur in practice. We resolve this discrepancy with a residual-aware theory of cumulative attention rollout. By incorporating residual connections, we show that this architectural component prevents collapse under realistic conditions. At finite depth, we prove that causal Transformers induce a U-shaped position bias, with attention concentrating on early and late tokens. This result provides a principled architectural explanation for the Lost-in-the-Middle phenomenon.
- Abstract(参考訳): トランスフォーマーモデルは特定のトークンの位置を体系的に好んでいるが、この位置バイアスのアーキテクチャ的起源はよく分かっていない。
無限深度での因果マスクの下では、注意ロールアウトの理論解析により、最初のトークンへの注意の必然的崩壊が予測される。
しかし、実際にはそのような崩壊は起こらない。
我々はこの矛盾を累積的注意ロールアウトの残留認識理論で解決する。
残余接続を組み込むことにより,この構造成分が現実的な条件下での崩壊を防止することを示す。
有限深さでは、因果変換器が初期および後期のトークンに集中してU字型位置バイアスを生じさせることが証明される。
この結果は、Lost-in-the-Middle現象の原則的なアーキテクチャ的説明を提供する。
関連論文リスト
- Time Symmetry, Retrocausality, and Emergent Collapse: The Tlalpan Interpretation of Quantum Mechanics [51.56484100374058]
Tlalpan Interpretation (QTI) は、波動関数の崩壊は原始的、公理的な規則ではなく、創発的な現象であると主張する。
QTIの新規性は、統計物理学における臨界現象の概念言語に崩壊を埋め込むことにある。
論文 参考訳(メタデータ) (2025-08-25T20:30:56Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。