論文の概要: Rotary Positional Embeddings as Phase Modulation: Theoretical Bounds on the RoPE Base for Long-Context Transformers
- arxiv url: http://arxiv.org/abs/2602.10959v1
- Date: Wed, 11 Feb 2026 15:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.073927
- Title: Rotary Positional Embeddings as Phase Modulation: Theoretical Bounds on the RoPE Base for Long-Context Transformers
- Title(参考訳): 位相変調としての回転位置埋め込み:長期変圧器用RoPEベースの理論的境界
- Authors: Feilong Liu,
- Abstract要約: ロータリー位置埋め込み (RoPE) は、トークンの位置を符号化するために大きな言語モデルで広く使われている。
目的コンテキスト長上の位置コヒーレンスを維持するために必要となる RoPE 基底パラメータの下位境界を導出する。
我々はこの解析を深部変圧器に拡張し, 層間における繰り返し回転変調が角方向のずれを生じさせることを示した。
下位境界と上部境界を合わせて、長文変換器の精度と深さに依存した実現可能性領域をゴールディロックゾーンと定義する。
- 参考スコア(独自算出の注目度): 0.5414847001704249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotary positional embeddings (RoPE) are widely used in large language models to encode token positions through multiplicative rotations, yet their behavior at long context lengths remains poorly characterized. In this work, we reinterpret RoPE as phase modulation applied to a bank of complex oscillators, enabling analysis through classical signal processing theory. Under this formulation, we derive principled lower bounds on the RoPE base parameter that are necessary to preserve positional coherence over a target context length. These include a fundamental aliasing bound, analogous to a Nyquist limit, and a DC-component stability bound that constrains phase drift in low-frequency positional modes. We further extend this analysis to deep transformers, showing that repeated rotary modulation across layers compounds angular misalignment, tightening the base requirement as depth increases. Complementing these results, we derive a precision-dependent upper bound on the RoPE base arising from finite floating-point resolution. Beyond this limit, incremental phase updates become numerically indistinguishable, leading to positional erasure even in the absence of aliasing. Together, the lower and upper bounds define a precision- and depth-dependent feasibility region a Goldilocks zone for long-context transformers. We validate the framework through a comprehensive case study of state-of-the-art models, including LLaMA, Mistral, and DeepSeek variants, showing that observed successes, failures, and community retrofits align closely with the predicted bounds. Notably, models that violate the stability bound exhibit attention collapse and long-range degradation, while attempts to scale beyond one million tokens encounter a hard precision wall independent of architecture or training.
- Abstract(参考訳): 回転位置埋め込み (RoPE) は多元的回転を通じてトークンの位置を符号化するために大きな言語モデルで広く用いられているが, 長い文脈長での挙動はよく分かっていない。
本研究では,複雑な発振器のバンクに印加される位相変調としてRoPEを解釈し,古典的な信号処理理論による解析を可能にする。
この定式化の下では、ターゲットコンテキスト長上の位置コヒーレンスを維持するために必要な RoPE 基底パラメータの下位境界を導出する。
これらは、Nyquist極限に類似した基本的なエイリアシング境界と、低周波位置モードでの位相ドリフトを制約するDC成分安定性境界を含む。
さらに, この解析を深層変圧器に拡張し, 層間繰り返しの回転変調が角方向の不整合を生じ, 深部が増加するにつれて基礎要件を厳しくすることを示した。
これらの結果を補完し, 有限浮動小数点分解能から生じるロピーベース上の精度依存上界を導出する。
この限界を超えて、漸進的な位相更新は数値的に区別できないものとなり、エイリアシングがなくても位置の消去につながる。
下位境界と上部境界を合わせて、長文変換器の精度と深さに依存した実現可能性領域をゴールディロックゾーンと定義する。
我々は、LLaMA、Mistral、DeepSeekといった最先端モデルの総合的なケーススタディを通じて、このフレームワークを検証する。
特に、安定性に反するモデルは注意の崩壊と長距離劣化を示し、100万枚を超えるトークンをスケールしようとする試みは、アーキテクチャやトレーニングとは無関係に、厳密な壁に直面している。
関連論文リスト
- From Sparse Sensors to Continuous Fields: STRIDE for Spatiotemporal Reconstruction [3.2580743227673694]
時空間デコーダを用いた高次元空間場を潜時状態にマッピングするフレームワークSTRIDEを提案する。
STRIDEは超高分解能をサポートし、超高分解能をサポートし、ノイズに対して頑健であることを示す。
論文 参考訳(メタデータ) (2026-02-04T04:39:23Z) - Spiral RoPE: Rotate Your Rotary Positional Embeddings in the 2D Plane [49.14270539697387]
Spiral RoPEは、多方向位置符号化を可能にするシンプルで効果的な拡張である。
分類、セグメンテーション、生成を含む幅広い視覚タスクにおいて、Spral RoPEは一貫して性能を改善している。
論文 参考訳(メタデータ) (2026-02-03T07:56:58Z) - Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。
拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。
LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文 参考訳(メタデータ) (2025-11-11T08:40:28Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Rethinking RoPE Scaling in Quantized LLM: Theory, Outlier, and Channel-Band Analysis with Weight Rescaling [3.7391437252721698]
本研究では, 軸整合量子化器と回転する RoPE 対による長いコンテキストエイリアス化, ダイナミックレンジ拡張, 異方性などの効果により, RoPE 位置認識 (PI) と PTQ を併用すると精度が低下することを示す。
本稿では,Q-ROAR (Quantization, RoPE-interpolation, Outlier Aware Rescaling) を提案する。
論文 参考訳(メタデータ) (2025-09-26T01:23:32Z) - Positional Encoding via Token-Aware Phase Attention [45.855203550592734]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models [19.3827288035483]
双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-05T16:20:48Z) - Deep Reinforcement Learning for IRS Phase Shift Design in
Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。
チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文 参考訳(メタデータ) (2022-11-02T22:07:36Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。