論文の概要: Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE
- arxiv url: http://arxiv.org/abs/2603.11611v1
- Date: Thu, 12 Mar 2026 07:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.941207
- Title: Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE
- Title(参考訳): フラクタル回転と全電位 : 部分回転翼の性能と収束性の検討
- Authors: Mohammad Aflah Khan, Krishna P. Gummadi, Manish Gupta, Abhilasha Ravichander,
- Abstract要約: RoPE(Rotary Positional Embedding)は、相対的な位置情報を符号化するトランスフォーマーアーキテクチャにおいて一般的な選択肢である。
通常のRoPEキャッシュよりも最大10倍のメモリ節約を実現しています。
- 参考スコア(独自算出の注目度): 18.16869367103229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotary Positional Embedding (RoPE) is a common choice in transformer architectures for encoding relative positional information. Although earlier work has examined omitting RoPE in specific layers, the effect of varying the fraction of hidden dimensions that receive rotary transformations remains largely unexplored. This design choice can yield substantial memory savings, which becomes especially significant at long context lengths. We find up to 10x memory savings over the standard RoPE cache, while achieving comparable final loss. In this work, we present a systematic study examining the impact of partial RoPE on training dynamics and convergence across architectures and datasets. Our findings uncover several notable patterns: (1) applying RoPE to only a small fraction of dimensions (around 10%) achieves convergence comparable to using full RoPE; (2) these trends hold consistently across model size, sequence lengths and datasets of varying quality and architectures, with higher-quality data resulting in lower overall loss and similar benchmark performance; and (3) some models trained with NoPE (No Positional Encoding) showcase unstable learning trajectories, which can be alleviated through minimal RoPE application or QK-Norm which converges to a higher loss. Together, these results offer practical guidance for model designers aiming to balance efficiency and training stability, while emphasizing the previously overlooked importance of partial RoPE.
- Abstract(参考訳): RoPE(Rotary Positional Embedding)は、相対的な位置情報を符号化するトランスフォーマーアーキテクチャにおいて一般的な選択肢である。
初期の研究では、特定の層におけるRoPEの省略について検討されてきたが、回転変換を受ける隠された次元の分数を変化させる効果はほとんど未解明のままである。
この設計選択は、特に長いコンテキスト長で重要なメモリ節約をもたらす可能性がある。
通常のRoPEキャッシュよりも最大10倍のメモリ節約を実現しています。
本研究では,部分的なRoPEがアーキテクチャやデータセット間の動的および収束のトレーニングに与える影響について,系統的研究を行う。
これらの傾向は, モデルサイズ, シーケンス長, 各種品質およびアーキテクチャのデータセットを連続的に保持し, 高品質なデータにより, 全体的な損失が小さく, ベンチマーク性能が良くなる, (3) NoPE でトレーニングされたモデルでは, 不安定な学習軌跡が示され, 最小の RoPE アプリケーションや QK-Norm によって緩和される。
これらの結果は,従来見過ごされていた部分的 RoPE の重要性を強調しつつ,効率性とトレーニング安定性のバランスを図ったモデル設計者の実践的ガイダンスを提供する。
関連論文リスト
- CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs [18.897130541385646]
RoPE(Rotary Positional Embedding)は、大規模言語モデル(LLM)におけるコンテキストスケーリングの鍵となるコンポーネントである。
本研究は,RoPEの低周波成分をソフトに切断する最小限の介入により,これらの特徴を統一するものである。
CoPEはOOD出力を除去し、セマンティックシグナルを洗練するだけでなく、ハードクリッピングによるスペクトルリークを防ぐ。
論文 参考訳(メタデータ) (2026-02-05T03:31:14Z) - Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs [72.8830548005884]
RoPE(Rotary Position Embeddings)は、大規模言語モデルにおけるシーケンスオーダの符号化の標準となっている。
標準実装では、注目スコア計算に複雑な値のドット積の実際のコンポーネントのみを利用する。
この想像的要素を再組み込む拡張を提案する。
論文 参考訳(メタデータ) (2025-12-08T12:59:54Z) - RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models [23.726452130486496]
タスク固有の適応には微調整された大きな言語モデルが必要であるが、計算的に禁止されている。
トレーニング可能なパラメータをよりターゲット的で効果的な方法で割り当てる新しいPEFTフレームワークであるRoPE対応選択適応(RoSA)を提案する。
RoSAはRoPE対応のアテンションエンハンスメント(RoAE)モジュールと、LayerNormのノルムに基づいて最も重要なレイヤを適応的に識別し更新する動的レイヤ選択(DLS)戦略を備えている。
論文 参考訳(メタデータ) (2025-11-21T09:55:01Z) - A Circular Argument : Does RoPE need to be Equivariant for Vision? [45.33536249657655]
数学的には、RoPEは1次元データに同変位置埋め込みを組み込むための最も一般的な解の1つであることを示す。
我々は,Mixed RoPEに類似した手法であるSpherical RoPEを提案するが,非可換ジェネレータを仮定する。
論文 参考訳(メタデータ) (2025-11-11T15:47:54Z) - Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices [25.99231204405503]
トレーニング可能な通勤角行列で定義することで回転位置PE(RoPE)を一般化するComRoPEを提案する。
我々は、RoPE方程式の十分な解として、トレーニング可能な通勤角行列を2種類提示する。
我々のフレームワークは,既存の RoPE の定式化を一般化し,将来的な位置符号化研究のための新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T09:10:02Z) - Rotary Position Embedding for Vision Transformer [44.27871591624888]
本研究では、視覚変換器(ViT)に適用した場合の回転位置埋め込み(RoPE)の包括的解析を提供する。
RoPEは印象的な補間性能、すなわち推論時の画像解像度を増大させながら精度を維持する。
最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-03-20T04:47:13Z) - Enhanced Principal Component Analysis under A Collaborative-Robust
Framework [89.28334359066258]
重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。
提案されたフレームワークでは、トレーニング中の重要度を示す適切なサンプルの一部のみがアクティブになり、エラーが大きい他のサンプルは無視されません。
特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。
論文 参考訳(メタデータ) (2021-03-22T15:17:37Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。