論文の概要: CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
- arxiv url: http://arxiv.org/abs/2602.05258v1
- Date: Thu, 05 Feb 2026 03:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.742753
- Title: CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
- Title(参考訳): CoPE:Long Context LLMのためのスケーラブルなフリーランチとしてのRoPE
- Authors: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang,
- Abstract要約: RoPE(Rotary Positional Embedding)は、大規模言語モデル(LLM)におけるコンテキストスケーリングの鍵となるコンポーネントである。
本研究は,RoPEの低周波成分をソフトに切断する最小限の介入により,これらの特徴を統一するものである。
CoPEはOOD出力を除去し、セマンティックシグナルを洗練するだけでなく、ハードクリッピングによるスペクトルリークを防ぐ。
- 参考スコア(独自算出の注目度): 18.897130541385646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.
- Abstract(参考訳): RoPE(Rotary Positional Embedding)は、大規模言語モデル(LLM)におけるコンテキストスケーリングの重要なコンポーネントである。
より長い文脈にRoPEを適用するための様々な手法が提案されているが、その指針原則は一般的には、(1)不明瞭な位置に対応するためにRoPEの周波数をスケールするアウト・オブ・ディストリビューション(OOD)緩和と、(2)RoPEで計算された注意点が意味論的に類似したトークンを優先すべきとするセマンティックモデリングの2つのカテゴリに分類される。
本研究は,RoPEの低周波成分をソフトに切断する,最小限の介入(CoPE)により,これらの明らかに異なる目的を統一するものである。
CoPEはOOD出力を除去し、セマンティックシグナルを洗練するだけでなく、ハードクリッピングによるスペクトルリークを防ぐ。
広汎な実験により,RoPE にソフトクリッピング戦略を適用するだけで,256k のコンテキスト長までスケールアップし,理論解析を検証し,CoPE を長さ一般化のための新たな最先端技術として確立できることを示す。
私たちのコード、データ、モデルはhttps://github.com/hrlics/CoPE.comで公開されています。
関連論文リスト
- MrRoPE: Mixed-radix Rotary Position Embedding [15.874568186540076]
MrRoPE (Mixed-radix RoPE) は、基数変換の観点に基づく一般的な符号化形式である。
我々は、一様および進行基数変換戦略を利用する2つのトレーニングフリー拡張、MrRoPE-UniとMrRoPE-Proを導入する。
MrRoPE-Proは、128K-context Needle-in-a-Haystackテストで85%以上リコールし、YaRNの精度を2倍以上に向上させる。
論文 参考訳(メタデータ) (2026-01-28T05:09:54Z) - Positional Encoding via Token-Aware Phase Attention [45.855203550592734]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - LongRoPE2: Near-Lossless LLM Context Window Scaling [46.936900701411965]
LongRoPE2は、トレーニング済みの大規模言語モデル(LLM)の効果的なコンテキストウィンドウをターゲット長に拡張する、新しいアプローチである。
提案手法は,(1) 従来の手法で観測された分布外問題に対して,RoPE次元のトレーニングが不十分であるという仮説,(2) 不十分なトレーニング問題に対処するために,"needle-driven" パープレクシリティによって導かれる進化的探索を採用する効果的なRoPE再スケーリングアルゴリズム,(3) 細管モデル重みを長文配列に適用するための混合コンテキストウィンドウトレーニングアプローチ,の3つによって達成される。
論文 参考訳(メタデータ) (2025-02-27T13:41:07Z) - VideoRoPE: What Makes for Good Video Rotary Position Embedding? [109.88966080843608]
VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。
VideoRoPEは、周期的振動を緩和するためのテキスト低周波時間割当、空間対称性を維持するためのテキスト対角配置、時間的および空間的インデックスを分離するためのテキスト調整可能な時間間隔を備えている。
論文 参考訳(メタデータ) (2025-02-07T18:56:04Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Round and Round We Go! What makes Rotary Positional Encodings useful? [15.543752938828831]
メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。
Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。
強調された問題を修正し、性能を向上するRoPEの修正を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:07:01Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。