論文の概要: Efficient Matrix Implementation for Rotary Position Embedding
- arxiv url: http://arxiv.org/abs/2604.09742v1
- Date: Fri, 10 Apr 2026 00:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.645518
- Title: Efficient Matrix Implementation for Rotary Position Embedding
- Title(参考訳): ロータリーインベディングの効率的なマトリックス実装
- Authors: Chen Minqi, Zhongqi Yue, Shihao Zhang, Yun Xu, Peng Wu, kaixiang Xu, Zeyi Huang, Hanwang Zhang,
- Abstract要約: RoPE(Rotary Position Embedding)は、言語、視覚、および3Dドメインにわたるモダントランスフォーマーアーキテクチャのコアコンポーネントとなっている。
ベクトル演算を統一行列変換に置き換える,数学的に等価だが計算効率のよいRoPEの再構成法であるRoMEを提案する。
実験により、RoMEはオペレーターレベルとフルモデルレベルの両方で相当な加速を提供することが示された。
- 参考スコア(独自算出の注目度): 50.45885099010382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rotary Position Embedding (RoPE) has become a core component of modern Transformer architectures across language, vision, and 3D domains. However, existing implementations rely on vector-level split and merge operations that introduce non-negligible computational overhead, often overlooked in attention optimization. The problem is further amplified in multi-dimensional settings (e.g., 2D and 3D RoPE), where additional vector operations and uneven feature partitions degrade hardware utilization. To overcome these limitations, we propose RoME (Rotary Matrix position Embedding), a mathematically equivalent yet computationally efficient reformulation of RoPE that replaces vector operations with unified matrix transformations. RoME eliminates dimension-specific operations, simplifies implementation, and enables fused parallel execution across Cube and Vector units on modern NPUs. Experiments show that RoME delivers substantial acceleration at both the operator and full-model levels. The implementation is available at https://gitcode.com/cann/ops-transformer/blob/master/experimental/posembedding/rope_matrix/README.md .
- Abstract(参考訳): RoPE(Rotary Position Embedding)は、言語、視覚、および3Dドメインにわたるモダントランスフォーマーアーキテクチャのコアコンポーネントとなっている。
しかし、既存の実装はベクトルレベルの分割とマージ操作に依存しており、非無視的な計算オーバーヘッドを導入し、しばしば注意の最適化で見落とされてしまう。
この問題は多次元設定(例えば、2D、3D RoPE)でさらに増幅され、ベクトル演算と不均一な特徴分割がハードウェア利用を低下させる。
これらの制限を克服するために,ベクトル演算を統一行列変換に置き換える,数学的に等価だが計算的に効率的なRoPEの再構成であるRoME(Rotary Matrix position Embedding)を提案する。
RoMEは次元固有の操作を排除し、実装を単純化し、現代のNPU上でCubeとVectorユニット間の融合並列実行を可能にする。
実験によると、RoMEはオペレーターとフルモデルの両方でかなり加速する。
実装はhttps://gitcode.com/cann/ops-transformer/blob/master/experimental/posembedding/rope_matrix/README.md で公開されている。
関連論文リスト
- RSR-core: A High-Performance Engine for Low-Bit Matrix-Vector Multiplication [11.676571773958145]
行列ベクトル乗算(Matrix-vector multiplication)は、ニューラルネットワーク、ベクトルデータベース、および大規模言語モデルにおける基本的な構成要素である。
近年の研究では、モデルの重みの低ビット量子化について検討されており、活性化を高精度に保ちながら、行列は二進数(1ビット)または三進数1.58ビット)の値で表される。
並行して、冗長セグメント削減のようなアルゴリズムは、低ビット行列ベクトル乗算を加速する理論的保証を提供する。
論文 参考訳(メタデータ) (2026-03-29T00:55:14Z) - NeuMatC: A General Neural Framework for Fast Parametric Matrix Operation [75.91285900600549]
我々は、一般的なパラメトリック行列演算タスクをエレガントに扱うtextbftextitNeural Matrix Computation Framework (NeuMatC)を提案する。
NeuMatCは、パラメータから対応する行列演算結果への低ランクかつ連続的なマッピングを教師なしで学習する。
合成と実世界の両方のデータセットの実験結果は、NeuMatCの有望な性能を示している。
論文 参考訳(メタデータ) (2025-11-28T07:21:17Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - LLM Inference Acceleration via Efficient Operation Fusion [1.350507740574158]
Transformer-based Large Language Models (LLM) は数十億のパラメータを含み、トレーニングと推論に専用のハードウェアリソースを必要とする。
Transformerアーキテクチャに固有の重要な課題の1つは、多くの非線形変換をサポートする必要性である。
このような集団的操作によるオーバーヘッドを完全に隠蔽できる極めて効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-02-24T23:42:37Z) - LieRE: Lie Rotational Positional Encodings [5.32707456872718]
トランスフォーマーアーキテクチャは入力データの構造をモデル化するために位置符号化に依存している。
変換器における位置符号化の表現能力を高めるために、リー相対代数(LieRE)を導入する。
2次元および3次元視覚タスクにおけるLieREの有効性を示す。
論文 参考訳(メタデータ) (2024-06-14T17:41:55Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。