論文の概要: Causality in Video Diffusers is Separable from Denoising
- arxiv url: http://arxiv.org/abs/2602.10095v1
- Date: Tue, 10 Feb 2026 18:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.758782
- Title: Causality in Video Diffusers is Separable from Denoising
- Title(参考訳): ビデオディフューザの因果性はデノイングから分離できる
- Authors: Xingjian Bai, Guande He, Zhengqi Li, Eli Shechtman, Xun Huang, Zongze Wu,
- Abstract要約: 因果関係は、ビデオ、言語、ロボット軌道など、多くの複雑な生成過程の基盤となっている。
現在の因果拡散モデルでは、時間的推論を反復的妄想と結び付け、すべての層に因果的注意を向ける。
これらのモデルにおける因果推論は、多段階の分極過程から分離可能であることを示す。
これらの知見に触発されて、多段階フレームワイドレンダリングから因果トランスフォーマーエンコーダを介して、1フレーム毎の時間的推論を明示的に分離する新しいアーキテクチャであるSCD(Separable Causal Diffusion)を導入する。
- 参考スコア(独自算出の注目度): 38.11368818072302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causality -- referring to temporal, uni-directional cause-effect relationships between components -- underlies many complex generative processes, including videos, language, and robot trajectories. Current causal diffusion models entangle temporal reasoning with iterative denoising, applying causal attention across all layers, at every denoising step, and over the entire context. In this paper, we show that the causal reasoning in these models is separable from the multi-step denoising process. Through systematic probing of autoregressive video diffusers, we uncover two key regularities: (1) early layers produce highly similar features across denoising steps, indicating redundant computation along the diffusion trajectory; and (2) deeper layers exhibit sparse cross-frame attention and primarily perform intra-frame rendering. Motivated by these findings, we introduce Separable Causal Diffusion (SCD), a new architecture that explicitly decouples once-per-frame temporal reasoning, via a causal transformer encoder, from multi-step frame-wise rendering, via a lightweight diffusion decoder. Extensive experiments on both pretraining and post-training tasks across synthetic and real benchmarks show that SCD significantly improves throughput and per-frame latency while matching or surpassing the generation quality of strong causal diffusion baselines.
- Abstract(参考訳): 因果関係(Causality)とは、コンポーネント間の時間的、一方向の因果関係を指すもので、ビデオ、言語、ロボット軌道など、複雑な生成プロセスの基盤となる。
現在の因果拡散モデルでは、時間的推論を反復的妄想と結び付け、すべての層に因果的注意を向ける。
本稿では,これらのモデルにおける因果推論が,多段階の分極過程から分離可能であることを示す。
自己回帰的ビデオディフューザの体系的探索により,(1)初期層は,拡散軌道に沿った冗長な計算を指示し,(2)深層はフレーム間の注意を疎外し,主にフレーム内レンダリングを行う,という2つの重要な規則性を明らかにする。
これらの知見に触発された分離型因果拡散(SCD)は、1フレーム当たりの時間的推論を多段階のフレームワイドレンダリングから、軽量な拡散デコーダを通じて因果変換器エンコーダを介して明示的に分離する新しいアーキテクチャである。
合成および実ベンチマークにおける事前学習と後訓練の両方に関する広範な実験により、SCDは強力な因果拡散ベースラインの生成品質を一致または超過しながら、スループットとフレーム単位のレイテンシを著しく改善することが示された。
関連論文リスト
- Towards One-step Causal Video Generation via Adversarial Self-Distillation [71.30373662465648]
最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。
我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
論文 参考訳(メタデータ) (2025-11-03T10:12:47Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。