論文の概要: RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling
- arxiv url: http://arxiv.org/abs/2606.06309v1
- Date: Thu, 04 Jun 2026 15:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.916317
- Title: RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling
- Title(参考訳): RhymeFlow: Asynchronous Denoising Flow Schedulingによるビデオ生成のためのトレーニング不要高速化
- Authors: Chensheng Dai, Shengjun Zhang, Yifan Li, Zhang Zhang, Zheng Zhu, Yueqi Duan,
- Abstract要約: Diffusion Transformers (DiTs) に基づく映像生成モデルは,映像合成において顕著な性能を発揮している。
DiTは3次元の注意の二次的な複雑さのために、高い推論遅延と計算コストに悩まされる。
我々はbftextRhymeFlowを紹介した。bftextRhymeFlowはトレーニング不要のフレームワークで、異なるフレームの認知軌道を分離する。
- 参考スコア(独自算出の注目度): 51.279397568734424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models based on Diffusion Transformers (DiTs) have achieved remarkable performance in video synthesis, yet they suffer from high inference latency and computational costs due to the quadratic complexity of 3D attention. Existing acceleration methods primarily reduce computational complexity within each individual denoising steps through techniques such as sparse attention and KV-caching. However, they rigidly adhere to the inherent constraint of the standard diffusion pipeline: every frame in the target video sequence must be subjected to a complete, dense denoising process across all diffusion timesteps. We observe that due to the corresponding contents and motions among adjacent frames, when keyframes with critical semantic transitions are anchored, the intermediate states of others often follow more predictable trajectories, which indicates that such uniform, dense denoising process is inherently redundant for natural video data. To this end, we introduce \textbf{RhymeFlow}, a training-free framework that decouples the denoising trajectories of different frames. Specifically, we first identify a sparse set of pivotal key frames that dominate the latent semantic evolution. Then, only these keyframes undergo dense, step-by-step denoising to ensure structural integrity, while non-keyframes progressively skip denoising steps to minimize computational cost. Since skipped intermediate states of non-keyframes break the temporal coherence in keyframe denoising steps, leading to visual degradation, we further introduce a latent trajectory projection module, which enables keyframes to interact with a complete and temporally consistent sequence representation. Extensive experiments on current DiT-based video generation models demonstrate our method outperforms existing baselines with higher inference speed and better visual quality.
- Abstract(参考訳): Diffusion Transformers (DiTs) に基づくビデオ生成モデルは、ビデオ合成において顕著な性能を達成しているが、3次元の注意の二次的複雑さにより、高い推論遅延と計算コストに悩まされている。
既存の加速法は、スパースアテンションやKVキャッシングといった技術により、個々のデノナイジングステップの計算複雑性を減少させる。
しかし、それらは標準拡散パイプラインの固有の制約に固執する: 対象の動画シーケンスのすべてのフレームは、すべての拡散時間ステップにわたって完全に密度の高い復調プロセスに従わなければならない。
隣接フレーム間の対応する内容や動きから、重要な意味遷移を持つキーフレームが固定されている場合、他のフレームの中間状態はより予測可能な軌跡に従うことが多く、このような一様で密度の高いデノナイジングプロセスが自然ビデオデータに対して本質的に冗長であることを示す。
この目的のために,異なるフレームの認知軌跡を分離するトレーニングフリーフレームワークである‘textbf{RhymeFlow} を紹介した。
具体的には、潜伏したセマンティック進化を支配するキーフレームのスパース集合を最初に同定する。
そして、これらのキーフレームだけが構造的整合性を確保するために密集したステップバイステップのDenoisingを実行し、非キーフレームは計算コストを最小限にするために段階的にdenoisingステップをスキップする。
非鍵フレームの中間状態をスキップすることで、キーフレームの認知ステップにおける時間的コヒーレンスを破り、視覚的劣化につながるため、キーフレームが完全かつ時間的に一貫したシーケンス表現と相互作用できる潜在軌道投影モジュールも導入する。
現在のDiTベースビデオ生成モデルに対する大規模な実験により,提案手法は既存のベースラインよりも高い推論速度と視覚的品質で優れていることが示された。
関連論文リスト
- Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep [37.62908191585867]
HetCacheは、ビデオ・ツー・ビデオ(MV2V)の生成と編集のためのトレーニング不要な拡散加速フレームワークである。
編集の一貫性と忠実さを維持しながら、冗長な注意操作を低減する。
実験によると、HetCacheは2.67$times$レイテンシのスピードアップやFLOPの削減など、目立った加速を実現している。
論文 参考訳(メタデータ) (2026-03-25T12:53:31Z) - Causality in Video Diffusers is Separable from Denoising [38.11368818072302]
因果関係は、ビデオ、言語、ロボット軌道など、多くの複雑な生成過程の基盤となっている。
現在の因果拡散モデルでは、時間的推論を反復的妄想と結び付け、すべての層に因果的注意を向ける。
これらのモデルにおける因果推論は、多段階の分極過程から分離可能であることを示す。
これらの知見に触発されて、多段階フレームワイドレンダリングから因果トランスフォーマーエンコーダを介して、1フレーム毎の時間的推論を明示的に分離する新しいアーキテクチャであるSCD(Separable Causal Diffusion)を導入する。
論文 参考訳(メタデータ) (2026-02-10T18:57:21Z) - LiteAttention: A Temporal Sparse Attention for Diffusion Transformers [1.3471268811218626]
LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
論文 参考訳(メタデータ) (2025-11-14T08:26:55Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。
We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文 参考訳(メタデータ) (2025-01-15T18:59:15Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。