論文の概要: On the Emergence of Position Bias in Transformers
- arxiv url: http://arxiv.org/abs/2502.01951v1
- Date: Tue, 04 Feb 2025 02:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:41.919784
- Title: On the Emergence of Position Bias in Transformers
- Title(参考訳): 変圧器の位置バイアスの発生について
- Authors: Xinyi Wu, Yifei Wang, Stefanie Jegelka, Ali Jadbabaie,
- Abstract要約: 本稿では,多層アテンションにおける位置バイアスを解析するための新しいグラフ理論フレームワークを提案する。
我々は,トークンが逐次位置に基づいてコンテキスト情報とどのように相互作用するかを定量化する。
我々のフレームワークは、トランスにおける位置バイアスを理解するための原則的な基盤を提供する。
- 参考スコア(独自算出の注目度): 59.87743433861665
- License:
- Abstract: Recent studies have revealed various manifestations of position bias in transformer architectures, from the "lost-in-the-middle" phenomenon to attention sinks, yet a comprehensive theoretical understanding of how attention masks and positional encodings shape these biases remains elusive. This paper introduces a novel graph-theoretic framework to analyze position bias in multi-layer attention. Modeling attention masks as directed graphs, we quantify how tokens interact with contextual information based on their sequential positions. We uncover two key insights: First, causal masking inherently biases attention toward earlier positions, as tokens in deeper layers attend to increasingly more contextualized representations of earlier tokens. Second, we characterize the competing effects of the causal mask and relative positional encodings, such as the decay mask and rotary positional encoding (RoPE): while both mechanisms introduce distance-based decay within individual attention maps, their aggregate effect across multiple attention layers -- coupled with the causal mask -- leads to a trade-off between the long-term decay effects and the cumulative importance of early sequence positions. Through controlled numerical experiments, we not only validate our theoretical findings but also reproduce position biases observed in real-world LLMs. Our framework offers a principled foundation for understanding positional biases in transformers, shedding light on the complex interplay of attention mechanism components and guiding more informed architectural design.
- Abstract(参考訳): 近年の研究では、「中途半端な」現象から注意シンクまで、トランスフォーマーアーキテクチャにおける様々な位置バイアスの現れが明らかにされているが、注意マスクや位置エンコーディングがこれらのバイアスをどう形作るかについての包括的な理論的理解が得られている。
本稿では,多層アテンションにおける位置バイアスを解析するための新しいグラフ理論フレームワークを提案する。
有向グラフとしてのアテンションマスクをモデル化し、トークンがそれらの逐次位置に基づいてコンテキスト情報とどのように相互作用するかを定量化する。
まず、因果マスクは、より深い層のトークンが、以前のトークンのより文脈的に表現されるようになるにつれて、本来は以前の位置に対する注意を偏らせる。
第2に、因果マスクの競合効果と、崩壊マスクや回転位置符号化(RoPE)のような相対的な位置符号化(英語版)を特徴付け、双方のメカニズムが個々の注意マップ内に距離ベースの減衰を導入する一方で、それらの集合効果は、因果マスクと組み合わせて、長期的な減衰効果と初期配列位置の累積的重要性との間にトレードオフをもたらす。
制御された数値実験により、我々の理論的な知見だけでなく、実世界のLLMで観測された位置バイアスを再現する。
我々のフレームワークは、トランスフォーマーにおける位置バイアスを理解し、注意機構コンポーネントの複雑な相互作用に光を当て、よりインフォメーションなアーキテクチャ設計を導くための、原則化された基盤を提供する。
関連論文リスト
- Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Benign Overfitting in Token Selection of Attention Mechanism [34.316270145027616]
ラベルノイズを伴う分類問題における注意機構の学習力学と一般化能力について検討した。
本稿では,信号対雑音比(SNR)の特性から,アテンション機構のトークン選択が過度に適合することを示す。
我々の研究は、オーバーフィッティングの初期段階の後に一般化の獲得が遅れていることも示している。
論文 参考訳(メタデータ) (2024-09-26T08:20:05Z) - Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。
特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T11:53:35Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Ripple Attention for Visual Perception with Sub-quadratic Complexity [7.425337104538644]
トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
視覚知覚のためのサブクワッドアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、クエリに対する異なるトークンのコントリビューションは、2次元空間における相対空間距離に対して重み付けされる。
論文 参考訳(メタデータ) (2021-10-06T02:00:38Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Telling BERT's full story: from Local Attention to Global Aggregation [14.92157586545743]
トランスアーキテクチャにおける自己注意型ヘッドの挙動を深く検討する。
いずれにせよ,注目分布は,注目頭部の局所行動に関する洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2020-04-10T01:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。