論文の概要: SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration
- arxiv url: http://arxiv.org/abs/2602.04361v1
- Date: Wed, 04 Feb 2026 09:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.458367
- Title: SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration
- Title(参考訳): SparVAR: トレーニング不要なアクセラレーションのための視覚的自己回帰モデリングにおける疎結合性を探る
- Authors: Zekun Li, Ning Wang, Tongxin Bai, Changwang Mei, Peisong Wang, Shuang Qiu, Jian Cheng,
- Abstract要約: 本稿では,視覚的オートレグレッシブ・アテンションの3つの特性,すなわち強いアテンション・シンク,大規模アクティベーション類似性,局所性の3つの特性を利用する,トレーニング不要なアクティベーション・フレームワークを提案する。
具体的には、後続の高分解能尺度のスパースアテンションパターンをスパース決定尺度から動的に予測し、効率的なインデックスマッピング機構を用いて自己相似スパースアテンションを構築する。
提案手法は、ほぼすべての高周波の詳細を保存しながら、$mathbf1.57times$ Speed-upを実現する。
- 参考スコア(独自算出の注目度): 23.86429472943524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual AutoRegressive (VAR) modeling has garnered significant attention for its innovative next-scale prediction paradigm. However, mainstream VAR paradigms attend to all tokens across historical scales at each autoregressive step. As the next scale resolution grows, the computational complexity of attention increases quartically with resolution, causing substantial latency. Prior accelerations often skip high-resolution scales, which speeds up inference but discards high-frequency details and harms image quality. To address these problems, we present SparVAR, a training-free acceleration framework that exploits three properties of VAR attention: (i) strong attention sinks, (ii) cross-scale activation similarity, and (iii) pronounced locality. Specifically, we dynamically predict the sparse attention pattern of later high-resolution scales from a sparse decision scale, and construct scale self-similar sparse attention via an efficient index-mapping mechanism, enabling high-efficiency sparse attention computation at large scales. Furthermore, we propose cross-scale local sparse attention and implement an efficient block-wise sparse kernel, which achieves $\mathbf{> 5\times}$ faster forward speed than FlashAttention. Extensive experiments demonstrate that the proposed SparseVAR can reduce the generation time of an 8B model producing $1024\times1024$ high-resolution images to the 1s, without skipping the last scales. Compared with the VAR baseline accelerated by FlashAttention, our method achieves a $\mathbf{1.57\times}$ speed-up while preserving almost all high-frequency details. When combined with existing scale-skipping strategies, SparseVAR attains up to a $\mathbf{2.28\times}$ acceleration, while maintaining competitive visual generation quality. Code is available at https://github.com/CAS-CLab/SparVAR.
- Abstract(参考訳): Visual AutoRegressive (VAR)モデリングは、革新的な次世代の予測パラダイムにおいて大きな注目を集めている。
しかしながら、主流のVARパラダイムは、各自己回帰ステップにおいて、歴史的スケールにわたるすべてのトークンに付随する。
次のスケールの解像度が大きくなるにつれて、注意の計算複雑性は、分解能とともに四次的に増加し、かなりの遅延を引き起こす。
先行加速度は、推論を高速化するが、高周波の詳細を捨て、画質を損なう高解像度スケールをスキップすることが多い。
これらの問題に対処するために、VARの3つの特性を利用したトレーニング不要加速フレームワークであるSparVARを紹介する。
(i)強い注意の流し、
(二)クロススケールなアクティベーション類似性及び
(三)地方性。
具体的には、後続の高分解能尺度のスパースアテンションパターンをスパース決定尺度から動的に予測し、効率的なインデックスマッピング機構により自己相似スパースアテンションを構築することにより、大規模での高効率スパースアテンション計算を可能にする。
さらに,局所スパースアテンションの大規模化を提案し,FlashAttentionよりも高速で$\mathbf{> 5\times}$を達成できる効率的なブロックワイズスパースカーネルを実装した。
大規模な実験により、提案されたSparseVARは、最後のスケールをスキップすることなく、1024\times1024$の高解像度画像を1sに生成する8Bモデルの生成時間を短縮できることが示された。
FlashAttentionによって加速されるVARベースラインと比較して、我々の手法は、ほとんどすべての高周波の詳細を保存しながら、$\mathbf{1.57\times}$スピードアップを達成する。
既存のスケールスキッピング戦略と組み合わせると、SparseVARは、競争力のある視覚生成品質を維持しながら、最大$\mathbf{2.28\times}$Accelerationを達成できる。
コードはhttps://github.com/CAS-CLab/SparVARで入手できる。
関連論文リスト
- StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models [69.07782637329315]
Visual Autoregressive(VAR)モデリングは、従来のAutoregressive(AR)モデルの次世代予測パラダイムから切り離されている。
既存のアクセラレーション手法は、大規模なステップのランタイムを減らすが、手動のステップ選択に依存し、生成プロセスにおける異なるステージの重要性を軽視する。
本稿では、VARモデルのためのシステム研究および段階認識加速度フレームワークであるStage VARを紹介する。
論文 参考訳(メタデータ) (2025-12-18T12:51:19Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning [66.5214586624095]
既存のVisual Autoregressive (VAR)パラダイムは、各スケールステップでトークンマップ全体を処理し、複雑性と実行時のスケーリングを画像の解像度で劇的に向上させる。
VARを用いた効率的な解像度スケーリングのための訓練後高速化手法であるFastmoreを提案する。
実験によると、FastmoreはFlashAttention-accelerated VARをさらに2.7$times$でスピードアップでき、パフォーマンスは1%低下した。
論文 参考訳(メタデータ) (2025-03-30T08:51:19Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。