論文の概要: Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
- arxiv url: http://arxiv.org/abs/2505.22918v4
- Date: Tue, 28 Oct 2025 21:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:43.480089
- Title: Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
- Title(参考訳): Re-ttention: 注意的統計的再構成による超スパース視覚生成
- Authors: Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu,
- Abstract要約: 大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
- 参考スコア(独自算出の注目度): 38.76559841681518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiT) have become the de-facto model for generating high-quality visual content like videos and images. A huge bottleneck is the attention mechanism where complexity scales quadratically with resolution and video length. One logical way to lessen this burden is sparse attention, where only a subset of tokens or patches are included in the calculation. However, existing techniques fail to preserve visual quality at extremely high sparsity levels and might even incur non-negligible compute overheads. To address this concern, we propose Re-ttention, which implements very high sparse attention for visual generation models by leveraging the temporal redundancy of Diffusion Models to overcome the probabilistic normalization shift within the attention mechanism. Specifically, Re-ttention reshapes attention scores based on the prior softmax distribution history in order to preserve the visual quality of the full quadratic attention at very high sparsity levels. Experimental results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate that Re-ttention requires as few as 3.1% of the tokens during inference, outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and MInference.
- Abstract(参考訳): Diffusion Transformer (DiT) はビデオや画像などの高品質なビジュアルコンテンツを生成するデファクトモデルとなっている。
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
この負担を軽減する論理的な方法の1つは、計算にトークンやパッチのサブセットしか含まれない、まばらな注意である。
しかし、既存の技術は、非常に高い空間レベルで視覚的品質を維持することができず、無視できない計算オーバーヘッドを発生させるかもしれない。
この問題に対処するために,拡散モデルの時間的冗長性を活用して,注意機構内の確率的正規化シフトを克服することで,視覚モデルに対して非常にスパークスな注意を喚起するRe-ttentionを提案する。
具体的には,従来のソフトマックス分布履歴に基づいて注意点を再現し,非常に高い空間レベルのフル2次注意点の視覚的品質を維持する。
CogVideoXやPixArt DiTsのようなT2V/T2Iモデルの実験的結果は、再帰は推論中にトークンの3.1%しか必要とせず、FastDiTAttn、Sparse VideoGen、MInferenceといった現代の手法よりも優れていることを示している。
関連論文リスト
- PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models [14.14413223631804]
視覚生成において、注意機構の二次的な複雑さは、高いメモリと計算コストをもたらす。
課題を軽減するための注意パターンを*再編成する。
視覚特徴抽出の局所的な集約性に着想を得て,新しい**Pattern-Aware token Re Ordering (PARO)*テクニックを設計する。
論文 参考訳(メタデータ) (2025-06-19T06:25:02Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation [1.3207844222875191]
Diffusion Transformer (DiTs) は、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ生成、編集といった最先端の成果を達成する。
静的キャッシュは、固定ステップにまたがって機能を再利用することでこれを緩和するが、ジェネレーションダイナミクスに適応できない。
ベースライン性能を保ちながらデノナイジングステップ間の計算冗長性を低減させる適応層再利用手法であるForesightを提案する。
論文 参考訳(メタデータ) (2025-05-31T00:52:17Z) - RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy [7.196471805257555]
RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。
提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2025-05-27T11:15:02Z) - FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T05:00:39Z) - DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance [43.423240627266644]
拡散変換器を用いたビデオ生成モデル(DiTs)は近年,その優れた生成品質に注目が集まっている。
しかしながら、その計算コストは、ボトルネック注意だけで、全体の80%以上の遅延の原因となっている。
本稿では,GPUに動的に注意を向けたビデオ拡散変換器の高速化のためのトレーニングフリーフレームワークであるDraftAttentionを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:34:34Z) - Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。