論文の概要: RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
- arxiv url: http://arxiv.org/abs/2605.15514v1
- Date: Fri, 15 May 2026 01:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.140136
- Title: RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
- Title(参考訳): RoPEは長い文脈でどちらの位置もトークンも区別しない
- Authors: Yufeng Du, Phillip Harris, Minyang Tian, Eliu A Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng,
- Abstract要約: トランスフォーマーを用いた長文言語モデルにおける回転位置埋め込みの本質的限界について検討する。
文脈長が大きくなるにつれて、RoPEに基づく注意は予測不能になり、その効果の中心となる2つの特性を失う。
- 参考スコア(独自算出の注目度): 24.395478116072486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, RoPE-based attention becomes unpredictable and loses two properties that are central to its effectiveness. First, it loses its locality bias: RoPE is no more likely to favor nearer positions than substantially farther ones. Second, it loses consistency in token relevance: a key vector that receives a higher attention score than an alternative at one position may receive a lower score at another. In both cases, the probability of failure approaches 0.5, no better than random guessing. We further prove that the attention score can remain unchanged when a key token is moved to a different position, or even replaced by a different token, indicating a failure to distinguish positions or tokens. Adjusting the RoPE base trades off distinguishing positions against distinguishing tokens but cannot preserve both at the same time. Increasing the RoPE base hyperparameter, a common practice in today's long-context models, helps distinguish different tokens, but inevitably sacrifices the ability to distinguish positions. Our empirical analysis shows that multi-head, multi-layer architectures are insufficient to overcome these limitations. Our findings suggest that fundamentally new mechanisms for encoding position and token order may be needed in future Transformer long-context language models.
- Abstract(参考訳): トランスフォーマーを用いた長文言語モデルにおける回転位置埋め込み(RoPE)の本質的な限界を同定する。
我々の理論的分析は文脈の特定の内容から切り離され、その長さにのみ依存する。
文脈長が大きくなるにつれて、RoPEに基づく注意は予測不能になり、その有効性の中心となる2つの特性を失うことが証明される。
まず、位置バイアスが失われる: RoPEは、かなり遠い位置よりも、より近い位置を好まない。
第二に、トークンの関連性における一貫性が失われる:ある位置での代替よりも高い注目スコアを受け取るキーベクトルは、別の位置で低いスコアを受け取ることができる。
どちらの場合も、失敗の確率は0.5に近づき、ランダムな推測には及ばない。
さらに、キートークンが別の位置に移動されたり、別のトークンに置き換えられたりしても、アテンションスコアが変わらないことを示し、位置やトークンを区別できないことを示す。
RoPEベースの調整は、トークンを区別する位置の区別をオフにしているが、両方を同時に保持することはできない。
今日の長文モデルで一般的なプラクティスであるRoPEベースハイパーパラメータの増大は、異なるトークンを区別するのに役立つが、必然的に位置を区別する能力を犠牲にする。
我々の経験的分析は、これらの制限を克服するには多層多層アーキテクチャが不十分であることを示している。
この結果から,将来のTransformer長文言語モデルでは,位置とトークンの順序を符号化するための基本的な新しいメカニズムが必要である可能性が示唆された。
関連論文リスト
- Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。
位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。
Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-15T18:46:35Z) - Frayed RoPE and Long Inputs: A Geometric Perspective [3.573191378087653]
Rotary Positional Embedding (RoPE) は、言語モデルにおける位置の符号化手法として広く採用されている。
我々は、注意が分離されたキーとクエリ潜在点の雲の密集を誘導し、シンクトークンの作成を可能にすることを示す。
そこで我々は,注目層がボックス外へのより長い入力を一般化できるように改良したRoPE-ID(In Distribution)を提案する。
論文 参考訳(メタデータ) (2026-02-24T23:03:47Z) - CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs [18.897130541385646]
RoPE(Rotary Positional Embedding)は、大規模言語モデル(LLM)におけるコンテキストスケーリングの鍵となるコンポーネントである。
本研究は,RoPEの低周波成分をソフトに切断する最小限の介入により,これらの特徴を統一するものである。
CoPEはOOD出力を除去し、セマンティックシグナルを洗練するだけでなく、ハードクリッピングによるスペクトルリークを防ぐ。
論文 参考訳(メタデータ) (2026-02-05T03:31:14Z) - Positional Encoding via Token-Aware Phase Attention [45.855203550592734]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings [29.421443764865003]
本稿では,RoPEの回転位置埋め込みにおいて,何とどこで絡み合っているのかを解析する。
本稿では,Polar Coordinate Position Embeddings(PoPE)と呼ばれるRoPEの改良を提案する。
論文 参考訳(メタデータ) (2025-09-05T14:22:27Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。
我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。
我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文 参考訳(メタデータ) (2024-11-20T17:22:31Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。