論文の概要: MrRoPE: Mixed-radix Rotary Position Embedding
- arxiv url: http://arxiv.org/abs/2601.22181v1
- Date: Wed, 28 Jan 2026 05:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:14.971638
- Title: MrRoPE: Mixed-radix Rotary Position Embedding
- Title(参考訳): MrRoPE: 混合ラジカル回転位置埋め込み
- Authors: Qingyuan Tian, Wenhong Zhu, Xiaoran Liu, Xiaofeng Wang, Rui Wang,
- Abstract要約: MrRoPE (Mixed-radix RoPE) は、基数変換の観点に基づく一般的な符号化形式である。
我々は、一様および進行基数変換戦略を利用する2つのトレーニングフリー拡張、MrRoPE-UniとMrRoPE-Proを導入する。
MrRoPE-Proは、128K-context Needle-in-a-Haystackテストで85%以上リコールし、YaRNの精度を2倍以上に向上させる。
- 参考スコア(独自算出の注目度): 15.874568186540076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotary Position Embedding (RoPE)-extension refers to modifying or generalizing the Rotary Position Embedding scheme to handle longer sequences than those encountered during pre-training. However, current extension strategies are highly diverse and lack a unified theoretical foundation. In this paper, we propose MrRoPE (Mixed-radix RoPE), a generalized encoding formulation based on a radix system conversion perspective, which elegantly unifies various RoPE-extension approaches as distinct radix conversion strategies. Based on this theory, we introduce two training-free extensions, MrRoPE-Uni and MrRoPE-Pro, which leverage uniform and progressive radix conversion strategies, respectively, to achieve 'train short, test long' generalization. Without fine-tuning, MrRoPE-Pro sustains over 85% recall in the 128K-context Needle-in-a-Haystack test and achieves more than double YaRN's accuracy on Infinite-Bench retrieval and dialogue subsets. Theoretical analysis confirms that MrRoPE-Pro effectively raises the upper bound of RoPE's attainable encoding length, which further validates the reliability and utility of our theory and methodology.
- Abstract(参考訳): ロータリー位置埋め込み(Rotary Position Embedding, RoPE)とは、ロータリー位置埋め込み(Rotary Position Embedding, Rotary Position Embedding, Rotary Position Embedding, Rotary Position Embedding)の略。
しかし、現在の拡張戦略は非常に多様であり、統一された理論基盤が欠如している。
本稿では,Radixシステム変換の観点から一般化された符号化形式であるMrRoPE(Mixed-radix RoPE)を提案する。
この理論に基づいて,MrRoPE-UniとMrRoPE-Proの2つのトレーニングフリー拡張を導入する。
微調整なしで、MrRoPE-Proは128K-context Needle-in-a-Haystackテストで85%以上リコールし、無限ベンチ検索と対話サブセットでYaRNの精度を2倍以上に向上させる。
理論的解析により、MrRoPE-Proは、RoPEの到達可能な符号化長の上限を効果的に上げ、我々の理論と方法論の信頼性と有用性をさらに検証する。
関連論文リスト
- Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs [72.8830548005884]
RoPE(Rotary Position Embeddings)は、大規模言語モデルにおけるシーケンスオーダの符号化の標準となっている。
標準実装では、注目スコア計算に複雑な値のドット積の実際のコンポーネントのみを利用する。
この想像的要素を再組み込む拡張を提案する。
論文 参考訳(メタデータ) (2025-12-08T12:59:54Z) - RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models [23.726452130486496]
タスク固有の適応には微調整された大きな言語モデルが必要であるが、計算的に禁止されている。
トレーニング可能なパラメータをよりターゲット的で効果的な方法で割り当てる新しいPEFTフレームワークであるRoPE対応選択適応(RoSA)を提案する。
RoSAはRoPE対応のアテンションエンハンスメント(RoAE)モジュールと、LayerNormのノルムに基づいて最も重要なレイヤを適応的に識別し更新する動的レイヤ選択(DLS)戦略を備えている。
論文 参考訳(メタデータ) (2025-11-21T09:55:01Z) - A Circular Argument : Does RoPE need to be Equivariant for Vision? [45.33536249657655]
数学的には、RoPEは1次元データに同変位置埋め込みを組み込むための最も一般的な解の1つであることを示す。
我々は,Mixed RoPEに類似した手法であるSpherical RoPEを提案するが,非可換ジェネレータを仮定する。
論文 参考訳(メタデータ) (2025-11-11T15:47:54Z) - Positional Encoding via Token-Aware Phase Attention [45.855203550592734]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices [25.99231204405503]
トレーニング可能な通勤角行列で定義することで回転位置PE(RoPE)を一般化するComRoPEを提案する。
我々は、RoPE方程式の十分な解として、トレーニング可能な通勤角行列を2種類提示する。
我々のフレームワークは,既存の RoPE の定式化を一般化し,将来的な位置符号化研究のための新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T09:10:02Z) - Rethinking RoPE: A Mathematical Blueprint for N-dimensional Positional Embedding [1.8142288667655782]
回転位置埋め込み(RoPE)のための体系的数学的枠組みを提案する。
我々は、RPEの2つのコア特性-相対性と可逆性-に基づいて、有効な$N$-dimensional RoPEに必要な条件を導出する。
我々のフレームワークは,高次元のモダリティやタスクへの原則拡張を実現しつつ,既存のRoPE設計を統一し,解説する。
論文 参考訳(メタデータ) (2025-04-07T21:58:22Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。