論文の概要: Behind RoPE: How Does Causal Mask Encode Positional Information?
- arxiv url: http://arxiv.org/abs/2509.21042v1
- Date: Thu, 25 Sep 2025 11:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.876629
- Title: Behind RoPE: How Does Causal Mask Encode Positional Information?
- Title(参考訳): RoPEの裏側: 因果マスクはどうやって位置情報をエンコードするのか?
- Authors: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi,
- Abstract要約: 因果マスクは注意点における位置依存パターンを誘導できることを示す。
因果マスクと RoPE の相互作用は,RoPE の相対的注意点パターンを非相対的に歪曲する。
- 参考スコア(独自算出の注目度): 40.16173166190937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While explicit positional encodings such as RoPE are a primary source of positional information in Transformer decoders, the causal mask also provides positional information. In this work, we prove that the causal mask can induce position-dependent patterns in attention scores, even without parameters or causal dependency in the input. Our theoretical analysis indicates that the induced attention pattern tends to favor nearby query-key pairs, mirroring the behavior of common positional encodings. Empirical analysis confirms that trained models exhibit the same behavior, with learned parameters further amplifying these patterns. Notably, we found that the interaction of causal mask and RoPE distorts RoPE's relative attention score patterns into non-relative ones. We consistently observed this effect in modern large language models, suggesting the importance of considering the causal mask as a source of positional information alongside explicit positional encodings.
- Abstract(参考訳): RoPEのような明示的な位置符号化はトランスフォーマーデコーダにおける位置情報の一次源であるが、因果マスクは位置情報も提供する。
本研究では,入力のパラメータや因果依存性がなくても,因果マスクが注目点における位置依存パターンを誘導できることを実証する。
理論的解析により, 注目パターンは近傍の問合せキーペアを好む傾向があり, 共通位置符号化の挙動を反映していることが示された。
経験的分析により、トレーニングされたモデルが同じ振る舞いを示し、学習されたパラメータがこれらのパターンをさらに増幅することを確認した。
特に、因果マスクと RoPE の相互作用は、RoPE の相対的注意点パターンを非相対的パターンに歪ませることが判明した。
現代の大規模言語モデルでは、この効果を一貫して観察し、位置情報のソースとして因果マスクを明示的な位置エンコーディングと併用することの重要性を示唆した。
関連論文リスト
- Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Rotary Offset Features in Large Language Models [0.9137554315375919]
回転埋め込みを用いた場合,クエリやキーに現れる特徴やパターンについて検討する。
回転周波数が回転オフセット特徴をもたらす境界を導出する。
私たちは、異なるサイズとアーキテクチャのモデルに対して、経験的に予測を検証します。
論文 参考訳(メタデータ) (2025-03-03T18:55:09Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。