論文の概要: Decoupling Positional and Symbolic Attention Behavior in Transformers
- arxiv url: http://arxiv.org/abs/2511.11579v1
- Date: Fri, 03 Oct 2025 01:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.171446
- Title: Decoupling Positional and Symbolic Attention Behavior in Transformers
- Title(参考訳): 変圧器の位置とシンボルの注意行動の分離
- Authors: Felipe Urrutia, Jorge Salas, Alexander Kozachinskiy, Cristian Buc Calderon, Hector Pasten, Cristobal Rojas,
- Abstract要約: トランスフォーマーでは、位置情報は位置 s (PE) を用いて符号化される
近年、RoPEの成功の一部は、大小の周波数を用いて、ロバストな位置情報や意味情報をエンコードする能力から生じると論じられている。
- 参考スコア(独自算出の注目度): 40.15480480887269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important aspect subtending language understanding and production is the ability to independently encode positional and symbolic information of the words within a sentence. In Transformers, positional information is typically encoded using Positional Encodings (PEs). One such popular PE, namely Rotary PE (RoPE), has been widely used due to its empirical success. Recently, it has been argued that part of RoPE's success emerges from its ability to encode robust positional and semantic information using large and small frequencies, respectively. In this work, we perform a deeper dive into the positional versus symbolic dichotomy of attention heads behavior, both at the theoretical and empirical level. We provide general definitions of what it means for a head to behave positionally or symbolically, prove that these are two mutually exclusive behaviors and develop a metric to quantify them. We apply our framework to analyze Transformer-based LLMs using RoPE and find that all heads exhibit a strong correspondence between behavior and frequency use. Finally, we introduce canonical tasks designed to be either purely positional or symbolic, and demonstrate that the Transformer performance causally relates to the ability of attention heads to leverage the appropriate frequencies. In particular, we show that we can control the Transformer performance by controlling which frequencies the attention heads can access. Altogether, our work provides a detailed understanding of RoPE, and how its properties relate to model behavior.
- Abstract(参考訳): 言語理解と生産を補助する重要な側面は、文中の単語の位置情報と記号情報を独立に符号化する能力である。
トランスフォーマーでは、位置情報は一般に位置エンコーディング(PE)を用いて符号化される。
ロータリーPE(Rotary PE)は、その経験的成功により広く使われている。
近年、RoPEの成功の一部は、大周波数と小周波数を用いて、頑健な位置情報と意味情報をエンコードする能力から生じると論じられている。
本研究は, 理論的, 経験的両面において, 注意行動の位置的二分法と記号的二分法を深く掘り下げるものである。
頭部が位置的あるいは象徴的に振る舞うことの意味の一般的な定義を提供し、これらが互いに排他的な2つの振舞いであることを証明し、それらを定量化する計量を開発する。
我々は,トランスフォーマーをベースとしたLCMをRoPEを用いて解析し,全てのヘッドが動作と周波数利用の強い対応を示すことを示す。
最後に、純粋に位置的あるいは象徴的であるように設計された標準タスクを導入し、トランスフォーマーの性能が適切な周波数を利用するための注意ヘッドの能力と因果関係があることを実証する。
特に,アテンションヘッドがどの周波数にアクセスできるかを制御することで,トランスフォーマーの性能を制御できることを示す。
さらに、我々の研究は、RoPEの詳細な理解と、その特性がモデル行動にどのように関係しているかを説明している。
関連論文リスト
- Do traveling waves make good positional encodings? [44.55744608160896]
移動波に基づく新しい位置符号化機構であるRollPEを提案する。
従来の絶対的な位置埋め込みよりもはるかに優れていることを示す。
我々は、RolePEの数学的等価性を、RoPEの特定の構成に導出する。
論文 参考訳(メタデータ) (2025-11-11T14:32:45Z) - Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Learning interpretable positional encodings in transformers depends on initialization [14.732076081683418]
位置符号化(PE)は、シーケンス内のトークンの位置と順序を区別する重要な情報を提供する。
学習可能なPEの選択は、解釈可能なPEを学習する能力に大きな影響を及ぼすことを示す。
極小分布から学習したPEは、複数の次元で真実の位置を反映する解釈可能なPEを発見できる。
論文 参考訳(メタデータ) (2024-06-12T14:37:29Z) - The Impact of Positional Encoding on Length Generalization in
Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T00:29:55Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。