論文の概要: Periodic RoPE for Infinite Context LLMs
- arxiv url: http://arxiv.org/abs/2605.27980v1
- Date: Wed, 27 May 2026 05:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.764396
- Title: Periodic RoPE for Infinite Context LLMs
- Title(参考訳): 無限コンテキストLLMのための周期RoPE
- Authors: Simin Huo,
- Abstract要約: 超長コンテキストを、真に無限のコンテキスト理解で処理する方法を示す。
我々のモデルであるMiniWinは、長いコンテキスト効率と安定性で標準GPTアーキテクチャでMiniMIndより優れています。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to process ultra-long contexts is crucial for large language models (LLMs) to perform long-horizon tasks. While recent efforts have extended context windows to 1M and beyond, model performance degrades when sequence length exceeds the pre-trained range of positional encodings (e.g., RoPE), i.e., position exhaustion. This fundamental limitation must be overcome to achieve a truly infinite context. To address it, we propose Periodic RoPE (P-RoPE), a positional encoding mechanism designed to circumvent this exhaustion. It operates in conjunction with sliding window attention (SWA) to capture local dependencies and relative positions within each window. This local layer is then complemented by a global attention layer with No Positional Encoding (NoPE), enabling unbounded interaction across the entire sequence without positional constraints. By stacking these two types of layers, the model avoids the need for positional extrapolation to generalize longer and theoretically supports an infinite context window. Empirical results show that our model, MiniWin, outperforms MiniMInd with standard GPT architectures in long-context efficiency and stability. Our work provides a possible pathway toward LLMs with genuine infinite-context understanding. The code is available at \href{https://github.com/Cominder/miniwin}{https://github.com/Cominder/miniwin}.
- Abstract(参考訳): 超長期のコンテキストを処理する能力は、大規模言語モデル(LLM)が長時間水平タスクを実行するために不可欠である。
近年の取り組みではコンテキストウィンドウが1M以上まで拡張されているが、シーケンス長が事前訓練された位置エンコーディング(例えばRoPE)の範囲を超えた場合、つまり位置消耗をモデル性能が低下する。
この基本的な制限は、真に無限の文脈を達成するために克服されなければならない。
そこで本研究では,この疲労を回避するための位置符号化機構である周期RoPE(P-RoPE)を提案する。
スライディングウィンドウアテンション(SWA)と連携して動作し、各ウィンドウ内の局所的な依存関係と相対的な位置をキャプチャする。
このローカル層は、非位置エンコーディング(No Positional Encoding, NoPE)を備えたグローバルアテンション層によって補完され、位置制約なしにシーケンス全体の非バウンドな相互作用を可能にする。
これらの2種類の層を積み重ねることで、モデルは、より長く一般化し、理論的には無限のコンテキストウィンドウをサポートする位置補間を避けることができる。
実験結果から, 我々のモデルであるMiniWinは, 標準GPTアーキテクチャでMiniMIndより長文の効率と安定性に優れていた。
我々の研究は、真の無限コンテキスト理解を伴うLLMへの道筋を提供する。
コードは \href{https://github.com/Cominder/miniwin}{https://github.com/Cominder/miniwin} で公開されている。
関連論文リスト
- LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z) - Extending Context Window of Large Language Models via Positional
Interpolation [26.076599895589098]
我々は,RoPEをベースとした事前学習LLMのコンテキストウィンドウサイズを,最小限の微調整(1000ステップ以内)で最大32768まで拡張する位置補間法を提案する。
パスキー検索,言語モデリング,LLaMA 7B から 65B までの長い文書要約など,長いコンテキストを必要とするタスクに対して,強い経験的結果を示す。
論文 参考訳(メタデータ) (2023-06-27T16:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。