論文の概要: Where does Absolute Position come from in decoder-only Transformers?
- arxiv url: http://arxiv.org/abs/2606.06160v1
- Date: Thu, 04 Jun 2026 13:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.822141
- Title: Where does Absolute Position come from in decoder-only Transformers?
- Title(参考訳): デコーダのみのトランスでは絶対位置はどこから来るのか?
- Authors: Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri,
- Abstract要約: RoPEが学習した変換器は、内部積の相対オフセットのみを符号化しているにもかかわらず、注意パターンにおける絶対位置を区別する。
このリークを、因果マスクと残留ストリームの2つのアーキテクチャコンポーネントにトレースする。
NTKスケーリングは残留流成分を抑制し、スライディング・ウインドウ・アテンションは深度で蓄積し、標準のRoPEは中間に位置する。
- 参考スコア(独自算出の注目度): 14.020291084272364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RoPE-trained transformers distinguish absolute position in their attention patterns, even though RoPE encodes only relative offsets in the inner product. We trace this leakage to two architectural components, The causal mask is responsible for the first: its per-query softmax denominator depends on the absolute query position by construction. The residual stream supplies the second. Under causal attention the activation at position $0$ attends only to itself and runs as a closed dynamical system from the embedding of the token at that position; downstream attention reads this trajectory through sink-reading heads. Both components appear in all three architectures we study, in architecturally specific balance: NTK scaling suppresses the residual-stream component, sliding-window attention allows it to accumulate with depth, and standard RoPE sits between. Replacing the \texttt{BOS} embedding before the forward pass removes $40\%$ of the residual-stream component at early queries. Attention sinks are token-anchored stabilizers that pass forward a deterministic fingerprint of the token at position $0$, constant across inputs when that token is the auto-prepended \texttt{BOS} and varying with it otherwise.
- Abstract(参考訳): RoPEが学習した変換器は、内部積の相対オフセットのみを符号化しているにもかかわらず、注意パターンにおける絶対位置を区別する。
因果マスクは、クエリごとのソフトマックス分母(Softmax denominator)は、構築による絶対的なクエリ位置に依存する。
残留ストリームは2番目のストリームを供給します。
因果的注意の下では、0$の位置でのアクティベーションはそれ自体にのみ参加し、その位置でのトークンの埋め込みから閉じた力学系として実行される。
NTKスケーリングは残留ストリームコンポーネントを抑圧し、スライディングウィンドウアテンションは深さとともに蓄積し、標準のRoPEは中間に位置する。
フォワードパスの前に \texttt{BOS} 埋め込みをリプレースすると、初期のクエリで残留ストリームコンポーネントの $40\% が取り除かれる。
アテンションシンクはトークンの決定論的指紋を$0$で転送するトークンアンコール安定化器で、トークンが自動予測された \texttt{BOS} であり、それ以外は変化しない。
関連論文リスト
- Attention Sinks in Diffusion Transformers: A Causal Analysis [1.9336815376402718]
テキスト・画像拡散における因果解析について述べる。
我々は,時間経過毎に主観的注意を抽出し,ペアによる無訓練介入によって抑制する。
抑制によって引き起こされる知覚の変化は、いずれにせよ、Emphsink固有の -- $sim!6times$等予算のランダムマスクよりも大きい。
論文 参考訳(メタデータ) (2026-05-10T04:14:07Z) - SinkTrack: Attention Sink based Context Anchoring for Large Language Models [57.87121346197518]
大型言語モデル (LLM) は幻覚やコンテキストの忘れに悩まされる。
SinkTrackはBOS>を情報アンカーとして扱い、キーコンテキストの機能をその表現に注入する。
SinkTrackはトレーニング不要で、プラグイン&プレイで、無視可能な推論オーバーヘッドを導入している。
論文 参考訳(メタデータ) (2026-04-11T04:49:11Z) - Residual Stream Duality in Modern Transformer Architectures [9.910562011343009]
最近の研究により、残留経路は単なる最適化配管ではなく、モデルの表現機械の一部であることが明らかになった。
このデザイン空間を整理する最もクリーンな方法は、Transformerの2軸ビューである、と私たちは主張する。
論文 参考訳(メタデータ) (2026-03-17T00:56:29Z) - Stem: Rethinking Causal Information Flow in Sparse Attention [28.46760179998361]
本稿では,情報フローに整合した新しいプラグアンドプレイスペースモジュールであるStemを提案する。
まず、StemはToken Position-Decay戦略を採用し、各レイヤ内で位置依存のトップkを適用して初期トークンを保持する。
次に、情報豊富なトークンを保存するために、StemはOutput-Aware Metricを使用する。
論文 参考訳(メタデータ) (2026-03-06T13:33:29Z) - Selective Rotary Position Embedding [84.22998043041198]
テキストインプットに依存した回転型埋め込み機構であるtextitSelective RoPE を導入する。
我々は,問合せキー対上で,これらの回転の隠れ形式を,ソフトマックスアテンションがすでに実行していることを示す。
入力依存回転が言語モデルの性能を向上させることを実証し, ゲートトランスフォーマーにtextitSelective RoPE を組み込むことにより, 本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-11-21T16:50:00Z) - Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings [29.421443764865003]
本稿では,RoPEの回転位置埋め込みにおいて,何とどこで絡み合っているのかを解析する。
本稿では,Polar Coordinate Position Embeddings(PoPE)と呼ばれるRoPEの改良を提案する。
論文 参考訳(メタデータ) (2025-09-05T14:22:27Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。