論文の概要: AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration
- arxiv url: http://arxiv.org/abs/2412.11706v1
- Date: Mon, 16 Dec 2024 12:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:49.845701
- Title: AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration
- Title(参考訳): AsymRnR:ビデオ拡散変換器の非対称化と再生による高速化
- Authors: Wenhao Sun, Rong-Cheng Tu, Jingyi Liao, Zhao Jin, Dacheng Tao,
- Abstract要約: ビデオ拡散変換器 (DiTs) は高忠実度ビデオを生成する重要な可能性を示しているが, 計算集約性が高い。
ビデオDiTを高速化するためのトレーニング不要なアプローチとして,非対称リダクションとリカバリ(AsymRnR)を提案する。
- 参考スコア(独自算出の注目度): 45.62669899834342
- License:
- Abstract: Video Diffusion Transformers (DiTs) have demonstrated significant potential for generating high-fidelity videos but are computationally intensive. Existing acceleration methods include distillation, which requires costly retraining, and feature caching, which is highly sensitive to network architecture. Recent token reduction methods are training-free and architecture-agnostic, offering greater flexibility and wider applicability. However, they enforce the same sequence length across different components, constraining their acceleration potential. We observe that intra-sequence redundancy in video DiTs varies across features, blocks, and denoising timesteps. Building on this observation, we propose Asymmetric Reduction and Restoration (AsymRnR), a training-free approach to accelerate video DiTs. It offers a flexible and adaptive strategy that reduces the number of tokens based on their redundancy to enhance both acceleration and generation quality. We further propose matching cache to facilitate faster processing. Integrated into state-of-the-art video DiTs, AsymRnR achieves a superior speedup without compromising the quality.
- Abstract(参考訳): ビデオ拡散変換器 (DiTs) は高忠実度ビデオを生成する重要な可能性を示しているが, 計算集約性が高い。
既存の加速法には、コストのかかる再訓練を必要とする蒸留と、ネットワークアーキテクチャに非常に敏感な特徴キャッシングがある。
最近のトークン削減手法は、トレーニング不要でアーキテクチャに依存しないもので、柔軟性とより広い適用性を提供する。
しかし、異なる成分にまたがって同じ配列の長さを強制し、加速ポテンシャルを制限している。
ビデオ中のDiTのシーケンス内冗長性は,特徴,ブロック,認知の時間ステップによって異なることが観察された。
そこで本研究では,ビデオDiTを高速化するためのトレーニング不要なアプローチである非対称リダクション・アンド・リカバリ(AsymRnR)を提案する。
それはフレキシブルで適応的な戦略を提供し、その冗長性に基づいてトークンの数を減らし、加速と生成品質の両方を強化する。
さらに、高速な処理を容易にするために、マッチングキャッシュを提案する。
最先端のビデオDiTに統合されたAsymRnRは、品質を損なうことなく、優れたスピードアップを実現する。
関連論文リスト
- Accelerating Vision Diffusion Transformers with Skip Branches [47.07564477125228]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。
DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。
我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。
また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack [71.2286719703198]
ビデオ拡散に基づく非制限アドリアック攻撃(ReToMe-VA)における再帰的トークンマージを提案する。
ReToMe-VAは、空間的非受容性を達成するために、Timestep-wise Adrial Latent Optimization (TALO)戦略を採用する。
ReToMe-VAには、ビデオフレーム間でトークンのマッチングとマージを行うRecursive Token Merging(ReToMe)メカニズムが導入されている。
論文 参考訳(メタデータ) (2024-08-10T08:10:30Z) - Binarized Low-light Raw Video Enhancement [49.65466843856074]
ディープニューラルネットワークは、低照度生ビデオの強化において優れたパフォーマンスを実現している。
本稿では,低照度生ビデオエンハンスメントに超コンパクトなバイナリニューラルネットワーク(BNN)を適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-03-29T02:55:07Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - HaltingVT: Adaptive Token Halting Transformer for Efficient Video
Recognition [11.362605513514943]
ビデオにおけるアクション認識は、高い計算コストのために課題となる。
本稿では、冗長なビデオパッチトークンを適応的に除去する効率的なビデオトランスフォーマーであるHaltingVTを提案する。
Mini-Kineticsデータセットでは、24.2 GFLOPで75.0%のTop-1ACC、9.9 GFLOPで67.2%のTop-1ACCを達成しました。
論文 参考訳(メタデータ) (2024-01-10T07:42:55Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。