論文の概要: A Residual-Aware Theory of Position Bias in Transformers
- arxiv url: http://arxiv.org/abs/2602.16837v1
- Date: Wed, 18 Feb 2026 20:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.324936
- Title: A Residual-Aware Theory of Position Bias in Transformers
- Title(参考訳): 変圧器の位置バイアスの残留認識理論
- Authors: Hanna Herasimchyk, Robin Labryga, Tomislav Prusina, Sören Laue,
- Abstract要約: 我々はTransformerモデルがトークンの位置を体系的に好んでいることを示す。
因果変換器は早期・後期のトークンに集中してU字型位置バイアスを生じさせることを示す。
この結果は、Lost-in-the-Middle現象の原則的なアーキテクチャ的説明を提供する。
- 参考スコア(独自算出の注目度): 2.9332247106953098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models systematically favor certain token positions, yet the architectural origins of this position bias remain poorly understood. Under causal masking at infinite depth, prior theoretical analyses of attention rollout predict an inevitable collapse of attention onto the first token. Such collapse, however, does not occur in practice. We resolve this discrepancy with a residual-aware theory of cumulative attention rollout. By incorporating residual connections, we show that this architectural component prevents collapse under realistic conditions. At finite depth, we prove that causal Transformers induce a U-shaped position bias, with attention concentrating on early and late tokens. This result provides a principled architectural explanation for the Lost-in-the-Middle phenomenon.
- Abstract(参考訳): トランスフォーマーモデルは特定のトークンの位置を体系的に好んでいるが、この位置バイアスのアーキテクチャ的起源はよく分かっていない。
無限深度での因果マスクの下では、注意ロールアウトの理論解析により、最初のトークンへの注意の必然的崩壊が予測される。
しかし、実際にはそのような崩壊は起こらない。
我々はこの矛盾を累積的注意ロールアウトの残留認識理論で解決する。
残余接続を組み込むことにより,この構造成分が現実的な条件下での崩壊を防止することを示す。
有限深さでは、因果変換器が初期および後期のトークンに集中してU字型位置バイアスを生じさせることが証明される。
この結果は、Lost-in-the-Middle現象の原則的なアーキテクチャ的説明を提供する。
関連論文リスト
- The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization [57.37943479039033]
本研究では,勾配降下における安定性現象によって引き起こされる暗黙の正則化に,アーキテクチャ的帰納バイアスがどう影響するかを考察する。
局所性と重量共有が根本的に変化していることが示されています。
論文 参考訳(メタデータ) (2026-03-05T04:50:51Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Geometric and Dynamic Scaling in Deep Transformers [13.697614668609205]
我々は、ディープトランスフォーマーの崩壊は基本的に幾何学的な問題であると主張する。
2つの原則によりこれらの障害に対処する統一的な幾何学的枠組みを提案する。
超深層ネットワークにおけるランク崩壊を回避するためには, 動的消去を許容しながら幾何的妥当性を強制することが重要であると予測した。
論文 参考訳(メタデータ) (2026-01-03T00:41:46Z) - Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility [90.894232610821]
我々は、ランク構造のレンズを通してトランスフォーマーを解析する。
時系列埋め込みは急激な減衰特異値スペクトルを示すことを示す。
関連する$Q/K/V$プロジェクションが正確な低ランク近似を持つことを示す。
論文 参考訳(メタデータ) (2025-10-02T23:56:17Z) - Time Symmetry, Retrocausality, and Emergent Collapse: The Tlalpan Interpretation of Quantum Mechanics [51.56484100374058]
Tlalpan Interpretation (QTI) は、波動関数の崩壊は原始的、公理的な規則ではなく、創発的な現象であると主張する。
QTIの新規性は、統計物理学における臨界現象の概念言語に崩壊を埋め込むことにある。
論文 参考訳(メタデータ) (2025-08-25T20:30:56Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Curse of Attention: A Kernel-Based Perspective for Why Transformers Fail to Generalize on Time Series Forecasting and Beyond [17.002793355495136]
TSFタスクにおける変圧器の非効率性に関する最初の理論的説明を提案する。
トレーニングアテンションネットワークにおけるbf非対称学習のメカニズムを考察する。
論文 参考訳(メタデータ) (2024-12-08T20:29:06Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Transformer Normalisation Layers and the Independence of Semantic Subspaces [17.957364289876548]
我々は意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。
最先端の変圧器が使用する正規化層の配置であるPre-Normは,この能力に反することを示す。
標準値が$lesssim$10%で人工的に摂動されるとき、1%の回路崩壊率を観測する。
論文 参考訳(メタデータ) (2024-06-25T16:16:38Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。