論文の概要: RoPeSLR: 3D RoPE-driven Sparse-LowRank Attention for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.20659v1
- Date: Wed, 20 May 2026 03:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.458517
- Title: RoPeSLR: 3D RoPE-driven Sparse-LowRank Attention for Efficient Diffusion Transformers
- Title(参考訳): RoPeSLR:高効率拡散変圧器の3D RoPE駆動Sparse-LowRankアテンション
- Authors: Yuxi Liu, Zekun Zhang, Yixiang Cai, Renjia Deng, Yutong He, Kun Yuan,
- Abstract要約: Diffusion Transformers (DiTs) は高忠実度ビデオ生成に革命をもたらしたが、その$mathcalO(L2)$ attention complexity は長周期合成の重大なボトルネックとなっている。
3D RoPE誘導Sparse-LowRankアテンションフレームワークである textbfRoPe SLR を提案する。
RoPe SLRはWan2.1-1.3BでのFLOPを最大10ドル、エンドツーエンドの推論スピードアップで2.26ドルである。
- 参考スコア(独自算出の注目度): 15.551959210208862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have revolutionized high-fidelity video generation, yet their $\mathcal{O}(L^2)$ attention complexity poses a formidable bottleneck for long-sequence synthesis. While recent sparse-linear attention hybrids aim to mitigate this, their performance severely degrades at extreme sparsity due to the "RoPE Dilemma": standard linear attention fails to preserve the orthogonal relative-position structure of 3D Rotary Position Embeddings (RoPE), neutralizing vital distance awareness. To address this, we propose \textbf{RoPeSLR}, a 3D RoPE-guided Sparse-LowRank attention framework. We establish that under empirically validated assumptions, the DiT attention manifold admits a decoupling into a high-frequency semantic spike set (bounded by $\mathcal{O}(L^{3/2})$ sparsity) and an extreme low-rank ($\mathcal{O}(d_h \log L)$) background continuum. Guided by this structural prior, RoPeSLR eschews standard linear attention for a head-wise low-rank parameterization equipped with a learnable 3D Absolute Positional Embedding (PE) injection, seamlessly synthesizing long-range relative distance decay. By guaranteeing sub-quadratic sparsity and sub-linear rank growth, RoPeSLR is exceptionally suited for scaling to ultra-long video inference. Extensive evaluations validate this scalable superiority: at 90\% sparsity, RoPeSLR achieves up to $10\times$ fewer FLOPs on Wan2.1-1.3B and delivers a $2.26\times$ end-to-end inference speedup on the ultra-long 100K+ token sequences of HunyuanVideo-13B, all while maintaining near-lossless generation fidelity (less than 1.3\% average VBench degradation).
- Abstract(参考訳): Diffusion Transformers (DiTs) は高忠実度ビデオ生成に革命をもたらしたが、その$\mathcal{O}(L^2)$ attention complexity は長周期合成において大きなボトルネックとなる。
近年,3次元回転位置埋め込み(RoPE)の直交相対配置構造維持に失敗し,重要な距離認識を中和する「RoPEジレンマ(RoPE Dilemma)」により,その性能は極端に低下する。
そこで我々は,3D RoPE誘導Sparse-LowRankアテンションフレームワークである \textbf{RoPeSLR} を提案する。
経験的に検証された仮定の下で、DiTアテンション多様体は、高頻度意味スパイク集合($\mathcal{O}(L^{3/2})$ sparsity)と極低ランク($\mathcal{O}(d_h \log L)$)背景連続体との疎結合を認める。
この構造的先行によって導かれたRoPeSLRは、学習可能な3次元絶対位置埋め込み(PE)インジェクションを備え、長距離相対距離減衰をシームレスに合成する頭回りの低ランクパラメータ化のための標準線形注意を喚起する。
サブクワッドラティックな間隔とサブリニアなランク成長を保証することで、RoPeSLRは超長大なビデオ推論へのスケーリングに非常に適している。
90\%の間隔で、RoPeSLRはWan2.1-1.3Bで最大10\times$FLOPを減らし、2.26\times$ HunyuanVideo-13Bの100K+トークンシーケンスのエンドツーエンドの速度アップを提供する。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling [0.0]
既存のスパースアテンション手法は、コンテキスト適応性、オーバーヘッドのサンプリング、微調整コストのトレードオフに直面している。
注意分布に垂直スラッシュ構造パターンを用いる軽量なトレーニング機構であるVSPrefillを提案する。
VSPrefillは注意点の98.35%を保存し、コンテキスト長128kで平均4.95倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-03-03T09:24:58Z) - Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout [15.899488263212442]
$infty$-RoPEは自動回帰ビデオ拡散のための統合された推論時フレームワークである。
ブロック相対論的RoPEは、時間的エンコーディングを移動局所参照フレームとして再構成する。
KV Flushは、グローバルシンクと最後に生成された潜在フレームの2つだけを保持することで、KVキャッシュを更新する。
RoPEカットは、時間的RoPE座標における制御された不連続を導入する。
論文 参考訳(メタデータ) (2025-11-25T18:59:46Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention [88.47701139980636]
Diffusion Transformer(DiT)モデルでは、特にビデオ生成において、注意遅延が大きなボトルネックとなっている。
注目重量は2つの部分に分けられる: 高いランクの大型重量のごく一部と、非常に低いランクの残りの重量の2つである。
本稿では,拡散モデルを高速化するために,疎度と直線的注意を融合させる訓練可能な注意法SLAを提案する。
論文 参考訳(メタデータ) (2025-09-28T17:58:59Z) - Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective [37.58855048653859]
自己回帰型大言語モデル (LLM) は、多岐にわたる言語タスクを統合し、自己回帰型ビデオ生成の予備的な取り組みを刺激している。
Lumos-1は、最小限のアーキテクチャ変更で自動回帰ビデオジェネレータアーキテクチャを維持している。
論文 参考訳(メタデータ) (2025-07-11T17:59:42Z) - Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文 参考訳(メタデータ) (2021-09-06T14:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。