論文の概要: Spiral RoPE: Rotate Your Rotary Positional Embeddings in the 2D Plane
- arxiv url: http://arxiv.org/abs/2602.03227v1
- Date: Tue, 03 Feb 2026 07:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.321352
- Title: Spiral RoPE: Rotate Your Rotary Positional Embeddings in the 2D Plane
- Title(参考訳): Spiral RoPEは、回転する位置を2D平面で回転させる
- Authors: Haoyu Liu, Sucheng Ren, Tingyu Zhu, Peng Wang, Cihang Xie, Alan Yuille, Zeyu Zheng, Feng Wang,
- Abstract要約: Spiral RoPEは、多方向位置符号化を可能にするシンプルで効果的な拡張である。
分類、セグメンテーション、生成を含む幅広い視覚タスクにおいて、Spral RoPEは一貫して性能を改善している。
- 参考スコア(独自算出の注目度): 49.14270539697387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rotary Position Embedding (RoPE) is the de facto positional encoding in large language models due to its ability to encode relative positions and support length extrapolation. When adapted to vision transformers, the standard axial formulation decomposes two-dimensional spatial positions into horizontal and vertical components, implicitly restricting positional encoding to axis-aligned directions. We identify this directional constraint as a fundamental limitation of the standard axial 2D RoPE, which hinders the modeling of oblique spatial relationships that naturally exist in natural images. To overcome this limitation, we propose Spiral RoPE, a simple yet effective extension that enables multi-directional positional encoding by partitioning embedding channels into multiple groups associated with uniformly distributed directions. Each group is rotated according to the projection of the patch position onto its corresponding direction, allowing spatial relationships to be encoded beyond the horizontal and vertical axes. Across a wide range of vision tasks including classification, segmentation, and generation, Spiral RoPE consistently improves performance. Qualitative analysis of attention maps further show that Spiral RoPE exhibits more concentrated activations on semantically relevant objects and better respects local object boundaries, highlighting the importance of multi-directional positional encoding in vision transformers.
- Abstract(参考訳): ロータリー位置埋め込み(Rotary Position Embedding, RoPE)は、相対的な位置を符号化し、長さ外挿をサポートするため、大規模言語モデルにおける事実上の位置符号化である。
視覚変換器に適応すると、標準的な軸方向の定式化は2次元空間位置を水平成分と垂直成分に分解し、軸方向への位置符号化を暗黙的に制限する。
我々は、この方向制約を、自然画像に自然に存在する斜め空間関係のモデル化を妨げる標準軸2D RoPEの基本的な制限とみなす。
この制限を克服するために、埋め込みチャネルを一様分散方向に関連する複数のグループに分割することで、多方向位置符号化を可能にする、シンプルで効果的な拡張であるSpral RoPEを提案する。
各群はパッチ位置の投影に従って対応する方向に回転し、空間的関係は水平軸と垂直軸を超えて符号化される。
分類、セグメンテーション、生成を含む幅広い視覚タスクにおいて、Spral RoPEは一貫して性能を改善している。
注意マップの質的分析により、Spral RoPEは意味的関連オブジェクトに対してより集中的な活性化を示し、局所的なオブジェクト境界を尊重し、視覚変換器における多方向位置符号化の重要性を強調している。
関連論文リスト
- Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation [35.66580960895196]
RoPE (Rotary Position Embedding) は1次元領域で優れているが, 画像生成への応用には大きな限界がある。
HaroPEは、特異値分解によってパラメータ化される学習可能な線形変換を挿入する、ヘッドワイド適応拡張である。
HaroPEは強力なRoPEベースラインや他の拡張よりも一貫してパフォーマンスを改善している。
論文 参考訳(メタデータ) (2025-10-12T07:46:28Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models [19.3827288035483]
双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-05T16:20:48Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices [25.99231204405503]
トレーニング可能な通勤角行列で定義することで回転位置PE(RoPE)を一般化するComRoPEを提案する。
我々は、RoPE方程式の十分な解として、トレーニング可能な通勤角行列を2種類提示する。
我々のフレームワークは,既存の RoPE の定式化を一般化し,将来的な位置符号化研究のための新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T09:10:02Z) - Rethinking RoPE: A Mathematical Blueprint for N-dimensional Positional Embedding [1.8142288667655782]
回転位置埋め込み(RoPE)のための体系的数学的枠組みを提案する。
我々は、RPEの2つのコア特性-相対性と可逆性-に基づいて、有効な$N$-dimensional RoPEに必要な条件を導出する。
我々のフレームワークは,高次元のモダリティやタスクへの原則拡張を実現しつつ,既存のRoPE設計を統一し,解説する。
論文 参考訳(メタデータ) (2025-04-07T21:58:22Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。