論文の概要: PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models
- arxiv url: http://arxiv.org/abs/2506.16054v1
- Date: Thu, 19 Jun 2025 06:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.957318
- Title: PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models
- Title(参考訳): PARO注意:視覚生成モデルにおける効率的なスパースと量子的注意のためのパターン認識再注文
- Authors: Tianchen Zhao, Ke Hong, Xinhao Yang, Xuefeng Xiao, Huixia Li, Feng Ling, Ruiqi Xie, Siqi Chen, Hongyu Zhu, Yichong Zhang, Yu Wang,
- Abstract要約: 視覚生成において、注意機構の二次的な複雑さは、高いメモリと計算コストをもたらす。
課題を軽減するための注意パターンを*再編成する。
視覚特徴抽出の局所的な集約性に着想を得て,新しい**Pattern-Aware token Re Ordering (PARO)*テクニックを設計する。
- 参考スコア(独自算出の注目度): 14.14413223631804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In visual generation, the quadratic complexity of attention mechanisms results in high memory and computational costs, especially for longer token sequences required in high-resolution image or multi-frame video generation. To address this, prior research has explored techniques such as sparsification and quantization. However, these techniques face significant challenges under low density and reduced bitwidths. Through systematic analysis, we identify that the core difficulty stems from the dispersed and irregular characteristics of visual attention patterns. Therefore, instead of introducing specialized sparsification and quantization design to accommodate such patterns, we propose an alternative strategy: *reorganizing* the attention pattern to alleviate the challenges. Inspired by the local aggregation nature of visual feature extraction, we design a novel **Pattern-Aware token ReOrdering (PARO)** technique, which unifies the diverse attention patterns into a hardware-friendly block-wise pattern. This unification substantially simplifies and enhances both sparsification and quantization. We evaluate the performance-efficiency trade-offs of various design choices and finalize a methodology tailored for the unified pattern. Our approach, **PAROAttention**, achieves video and image generation with lossless metrics, and nearly identical results from full-precision (FP) baselines, while operating at notably lower density (~20%-30%) and bitwidth (**INT8/INT4**), achieving a **1.9x** to **2.7x** end-to-end latency speedup.
- Abstract(参考訳): 視覚生成において、注意機構の二次的な複雑さは、特に高解像度画像や多フレームビデオ生成に必要な長いトークンシーケンスに対して、高いメモリと計算コストをもたらす。
これを解決するために、先行研究はスパーシフィケーションや量子化といった手法を探求してきた。
しかし、これらの技術は密度が低く、ビット幅が小さくなるという重大な課題に直面している。
組織的分析により,中心的難易度は視覚的注意パターンの分散的・不規則な特徴に起因していることが明らかとなった。
そこで我々は,このようなパターンに対応するために,特殊なスペーシフィケーションと量子化設計を導入する代わりに,次の戦略を提案する。
視覚的特徴抽出の局所的な集約性に着想を得て,多彩な注意パターンをハードウェアフレンドリーなブロックワイドパターンに統一する**Pattern-Aware token Re Ordering (PARO)*テクニックを設計した。
この統一はスパース化と量子化の両方を大幅に単純化し、強化する。
各種設計選択の性能・効率のトレードオフを評価し,統一パターンに適した方法論を確定する。
我々のアプローチ**PAROAttention**は、ビデオと画像の生成をロスレスメトリクスで達成し、フル精度(FP)ベースラインからほぼ同じ結果を得る一方で、明らかに低い密度(~20%-30%)とビット幅(**INT8/INT4**)で動作し、***1.9x*から****2.7x*のエンドツーエンド遅延スピードアップを達成する。
関連論文リスト
- GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models [5.025353943896242]
GreedyPruneは、セマンティックサリエンシと視覚的多様性を最適化するために設計された、トレーニング不要のビジュアルトークンプルーニングアルゴリズムである。
GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し、エンドツーエンドの推論遅延を大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-06-16T07:21:11Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [23.01286982392074]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。
注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。
また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:15:16Z) - Revisiting Point Cloud Simplification: A Learnable Feature Preserving
Approach [57.67932970472768]
MeshとPoint Cloudの単純化手法は、3Dモデルの複雑さを低減しつつ、視覚的品質と関連する健全な機能を維持することを目的としている。
そこで本研究では,正解点の標本化を学習し,高速点雲の簡易化手法を提案する。
提案手法は、入力空間から任意のユーザ定義の点数を選択し、視覚的知覚誤差を最小限に抑えるために、その位置を再配置するよう訓練されたグラフニューラルネットワークアーキテクチャに依存する。
論文 参考訳(メタデータ) (2021-09-30T10:23:55Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。