論文の概要: TIMERIPPLE: Accelerating vDiTs by Understanding the Spatio-Temporal Correlations in Latent Space
- arxiv url: http://arxiv.org/abs/2511.12035v1
- Date: Sat, 15 Nov 2025 05:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.521765
- Title: TIMERIPPLE: Accelerating vDiTs by Understanding the Spatio-Temporal Correlations in Latent Space
- Title(参考訳): TIMERIPPLE: 潜時空間における時空間相関の理解によるvDiTの高速化
- Authors: Wenxuan Miao, Yulin Sun, Aiyue Chen, Jing Lin, Yiwu Yao, Yiming Gan, Jieru Zhao, Jingwen Leng, Mingyi Guo, Yu Feng,
- Abstract要約: 本稿では,vDiTsにおける自己注意の促進を,潜在空間における時間的再利用の相関を利用して行う。
また,vDiT内の注意パターンは,主にトークンチャネルレベルでの空間的・時間的相関が支配的であることが示唆された。
本稿では,個別チャネルに沿った部分的注意スコアを空間的あるいは時間的に相関したトークンに再利用することにより,注意計算を近似する軽量かつ適応的な戦略を提案する。
- 参考スコア(独自算出の注目度): 15.535854202219072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent surge in video generation has shown the growing demand for high-quality video synthesis using large vision models. Existing video generation models are predominantly based on the video diffusion transformer (vDiT), however, they suffer from substantial inference delay due to self-attention. While prior studies have focused on reducing redundant computations in self-attention, they often overlook the inherent spatio-temporal correlations in video streams and directly leverage sparsity patterns from large language models to reduce attention computations. In this work, we take a principled approach to accelerate self-attention in vDiTs by leveraging the spatio-temporal correlations in the latent space. We show that the attention patterns within vDiT are primarily due to the dominant spatial and temporal correlations at the token channel level. Based on this insight, we propose a lightweight and adaptive reuse strategy that approximates attention computations by reusing partial attention scores of spatially or temporally correlated tokens along individual channels. We demonstrate that our method achieves significantly higher computational savings (85\%) compared to state-of-the-art techniques over 4 vDiTs, while preserving almost identical video quality ($<$0.06\% loss on VBench).
- Abstract(参考訳): 最近のビデオ生成の急増は、大きな視覚モデルを用いた高品質なビデオ合成の需要が高まっていることを示している。
既存のビデオ生成モデルは、主にビデオ拡散変換器(vDiT)に基づいているが、自己注意による推論遅延に悩まされている。
従来の研究では、自己注意における冗長な計算の削減に重点を置いていたが、ビデオストリームに固有の時空間的相関を見落とし、大きな言語モデルからのスパーシティパターンを直接活用して注意計算を減らすことが多かった。
本研究では, 潜時空間の時空間相関を利用して, vDiTsにおける自己注意を加速する原理的アプローチをとる。
また,vDiT内の注意パターンは,主にトークンチャネルレベルでの空間的・時間的相関が支配的であることが示唆された。
この知見に基づいて,個別チャネルに沿った空間的あるいは時間的に相関したトークンの部分的注意スコアを再利用することにより,注意計算を近似した軽量かつ適応的な再利用戦略を提案する。
提案手法は,VBenchの映像品質をほぼ同一に保ちながら,4vDiT以上の最先端技術と比較して計算コスト(85 %)を著しく向上させることを示した。
関連論文リスト
- Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Exploiting Spatial-temporal Correlations for Video Anomaly Detection [7.336831373786849]
ビデオ異常検出(VAD)は、異常事象のあいまいさと多様性のため、パターン認識コミュニティにおいて難しい課題である。
本稿では,ST-LSTMを用いて逆学習を行うための識別器を導入し,学習能力を向上させる。
本手法は, UCSD2, CUHKアベニュー, 上海テックにおいて, AUCの96.7%, 87.8%, 73.1%の最先端手法と比較して, 競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-02T02:13:24Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。