論文の概要: On the Emergence of Position Bias in Transformers
- arxiv url: http://arxiv.org/abs/2502.01951v1
- Date: Tue, 04 Feb 2025 02:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:41.919784
- Title: On the Emergence of Position Bias in Transformers
- Title(参考訳): 変圧器の位置バイアスの発生について
- Authors: Xinyi Wu, Yifei Wang, Stefanie Jegelka, Ali Jadbabaie,
- Abstract要約: 本稿では,多層アテンションにおける位置バイアスを解析するための新しいグラフ理論フレームワークを提案する。
我々は,トークンが逐次位置に基づいてコンテキスト情報とどのように相互作用するかを定量化する。
我々のフレームワークは、トランスにおける位置バイアスを理解するための原則的な基盤を提供する。
- 参考スコア(独自算出の注目度): 59.87743433861665
- License:
- Abstract: Recent studies have revealed various manifestations of position bias in transformer architectures, from the "lost-in-the-middle" phenomenon to attention sinks, yet a comprehensive theoretical understanding of how attention masks and positional encodings shape these biases remains elusive. This paper introduces a novel graph-theoretic framework to analyze position bias in multi-layer attention. Modeling attention masks as directed graphs, we quantify how tokens interact with contextual information based on their sequential positions. We uncover two key insights: First, causal masking inherently biases attention toward earlier positions, as tokens in deeper layers attend to increasingly more contextualized representations of earlier tokens. Second, we characterize the competing effects of the causal mask and relative positional encodings, such as the decay mask and rotary positional encoding (RoPE): while both mechanisms introduce distance-based decay within individual attention maps, their aggregate effect across multiple attention layers -- coupled with the causal mask -- leads to a trade-off between the long-term decay effects and the cumulative importance of early sequence positions. Through controlled numerical experiments, we not only validate our theoretical findings but also reproduce position biases observed in real-world LLMs. Our framework offers a principled foundation for understanding positional biases in transformers, shedding light on the complex interplay of attention mechanism components and guiding more informed architectural design.
- Abstract(参考訳): 近年の研究では、「中途半端な」現象から注意シンクまで、トランスフォーマーアーキテクチャにおける様々な位置バイアスの現れが明らかにされているが、注意マスクや位置エンコーディングがこれらのバイアスをどう形作るかについての包括的な理論的理解が得られている。
本稿では,多層アテンションにおける位置バイアスを解析するための新しいグラフ理論フレームワークを提案する。
有向グラフとしてのアテンションマスクをモデル化し、トークンがそれらの逐次位置に基づいてコンテキスト情報とどのように相互作用するかを定量化する。
まず、因果マスクは、より深い層のトークンが、以前のトークンのより文脈的に表現されるようになるにつれて、本来は以前の位置に対する注意を偏らせる。
第2に、因果マスクの競合効果と、崩壊マスクや回転位置符号化(RoPE)のような相対的な位置符号化(英語版)を特徴付け、双方のメカニズムが個々の注意マップ内に距離ベースの減衰を導入する一方で、それらの集合効果は、因果マスクと組み合わせて、長期的な減衰効果と初期配列位置の累積的重要性との間にトレードオフをもたらす。
制御された数値実験により、我々の理論的な知見だけでなく、実世界のLLMで観測された位置バイアスを再現する。
我々のフレームワークは、トランスフォーマーにおける位置バイアスを理解し、注意機構コンポーネントの複雑な相互作用に光を当て、よりインフォメーションなアーキテクチャ設計を導くための、原則化された基盤を提供する。
関連論文リスト
- Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers [3.686808512438363]
ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。
我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。
外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。
特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T11:53:35Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - How Transformers Learn Diverse Attention Correlations in Masked Vision Pretraining [66.08606211686339]
本研究では,マスク付き再建前訓練における一層変圧器の学習に関する,最初のエンドツーエンドの理論的保証を提供する。
概念的側面から,マスク付き視覚前訓練目標を用いた変圧器の局所的・多彩な注意パターンの生成機構を考察する。
技術面では、ソフトマックス・アテンションモデルにおけるトレーニングダイナミクスのエンドツーエンド特性は、入力と位置の埋め込みを同時に考慮する。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Telling BERT's full story: from Local Attention to Global Aggregation [14.92157586545743]
トランスアーキテクチャにおける自己注意型ヘッドの挙動を深く検討する。
いずれにせよ,注目分布は,注目頭部の局所行動に関する洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2020-04-10T01:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。