論文の概要: Behind RoPE: How Does Causal Mask Encode Positional Information?
- arxiv url: http://arxiv.org/abs/2509.21042v1
- Date: Thu, 25 Sep 2025 11:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.876629
- Title: Behind RoPE: How Does Causal Mask Encode Positional Information?
- Title(参考訳): RoPEの裏側: 因果マスクはどうやって位置情報をエンコードするのか?
- Authors: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi,
- Abstract要約: 因果マスクは注意点における位置依存パターンを誘導できることを示す。
因果マスクと RoPE の相互作用は,RoPE の相対的注意点パターンを非相対的に歪曲する。
- 参考スコア(独自算出の注目度): 40.16173166190937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While explicit positional encodings such as RoPE are a primary source of positional information in Transformer decoders, the causal mask also provides positional information. In this work, we prove that the causal mask can induce position-dependent patterns in attention scores, even without parameters or causal dependency in the input. Our theoretical analysis indicates that the induced attention pattern tends to favor nearby query-key pairs, mirroring the behavior of common positional encodings. Empirical analysis confirms that trained models exhibit the same behavior, with learned parameters further amplifying these patterns. Notably, we found that the interaction of causal mask and RoPE distorts RoPE's relative attention score patterns into non-relative ones. We consistently observed this effect in modern large language models, suggesting the importance of considering the causal mask as a source of positional information alongside explicit positional encodings.
- Abstract(参考訳): RoPEのような明示的な位置符号化はトランスフォーマーデコーダにおける位置情報の一次源であるが、因果マスクは位置情報も提供する。
本研究では,入力のパラメータや因果依存性がなくても,因果マスクが注目点における位置依存パターンを誘導できることを実証する。
理論的解析により, 注目パターンは近傍の問合せキーペアを好む傾向があり, 共通位置符号化の挙動を反映していることが示された。
経験的分析により、トレーニングされたモデルが同じ振る舞いを示し、学習されたパラメータがこれらのパターンをさらに増幅することを確認した。
特に、因果マスクと RoPE の相互作用は、RoPE の相対的注意点パターンを非相対的パターンに歪ませることが判明した。
現代の大規模言語モデルでは、この効果を一貫して観察し、位置情報のソースとして因果マスクを明示的な位置エンコーディングと併用することの重要性を示唆した。
関連論文リスト
- Untwisting RoPE: Frequency Control for Shared Attention in DiTs [84.14005261938284]
位置符号化はトランスフォーマーベースの生成モデルに不可欠である。
ロータリー・ポジショナル・エンベディング (RoPE) は, 異なる位置感性を有する周波数成分に自然に分解されることを示す。
本稿では,厳密な位置アライメントよりも意味的類似性を反映するように,RoPE周波数帯域を選択的に変調する手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T20:01:59Z) - Demystifying the Slash Pattern in Attention: The Role of RoPE [108.78812285352507]
我々は,スラッシュ・ドミナント・ヘッド(SDH)の出現を経験的,理論的両面から軽視する。
SDHはモデルに固有のものであり、分布外プロンプトに一般化する。
論文 参考訳(メタデータ) (2026-01-13T07:40:57Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - Do traveling waves make good positional encodings? [44.55744608160896]
移動波に基づく新しい位置符号化機構であるRollPEを提案する。
従来の絶対的な位置埋め込みよりもはるかに優れていることを示す。
我々は、RolePEの数学的等価性を、RoPEの特定の構成に導出する。
論文 参考訳(メタデータ) (2025-11-11T14:32:45Z) - Decoupling Positional and Symbolic Attention Behavior in Transformers [40.15480480887269]
トランスフォーマーでは、位置情報は位置 s (PE) を用いて符号化される
近年、RoPEの成功の一部は、大小の周波数を用いて、ロバストな位置情報や意味情報をエンコードする能力から生じると論じられている。
論文 参考訳(メタデータ) (2025-10-03T01:31:15Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Rotary Offset Features in Large Language Models [0.9137554315375919]
回転埋め込みを用いた場合,クエリやキーに現れる特徴やパターンについて検討する。
回転周波数が回転オフセット特徴をもたらす境界を導出する。
私たちは、異なるサイズとアーキテクチャのモデルに対して、経験的に予測を検証します。
論文 参考訳(メタデータ) (2025-03-03T18:55:09Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。