論文の概要: Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation
- arxiv url: http://arxiv.org/abs/2602.02214v1
- Date: Mon, 02 Feb 2026 15:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.249027
- Title: Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation
- Title(参考訳): 因果強制:高画質リアルタイムインタラクティブビデオ生成のための自己回帰拡散蒸留
- Authors: Hongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu,
- Abstract要約: 現在の方法では、事前訓練された双方向ビデオ拡散モデルを数段階自己回帰(AR)モデルに蒸留する。
ODEのためのAR教師を用いたCausal Forcingを提案する。
私たちのメソッドは、すべてのメトリクスですべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 47.295642561210606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve real-time interactive video generation, current methods distill pretrained bidirectional video diffusion models into few-step autoregressive (AR) models, facing an architectural gap when full attention is replaced by causal attention. However, existing approaches do not bridge this gap theoretically. They initialize the AR student via ODE distillation, which requires frame-level injectivity, where each noisy frame must map to a unique clean frame under the PF-ODE of an AR teacher. Distilling an AR student from a bidirectional teacher violates this condition, preventing recovery of the teacher's flow map and instead inducing a conditional-expectation solution, which degrades performance. To address this issue, we propose Causal Forcing that uses an AR teacher for ODE initialization, thereby bridging the architectural gap. Empirical results show that our method outperforms all baselines across all metrics, surpassing the SOTA Self Forcing by 19.3\% in Dynamic Degree, 8.7\% in VisionReward, and 16.7\% in Instruction Following. Project page and the code: \href{https://thu-ml.github.io/CausalForcing.github.io/}{https://thu-ml.github.io/CausalForcing.github.io/}
- Abstract(参考訳): リアルタイムの対話型ビデオ生成を実現するため,現在の手法では,事前学習した双方向ビデオ拡散モデルを数段階の自己回帰(AR)モデルに蒸留し,完全な注意を因果的注意に置き換える場合のアーキテクチャ的ギャップに直面している。
しかし、既存のアプローチはこのギャップを理論的に橋渡ししない。
それぞれのノイズフレームは、AR教師のPF-ODEの下で、ユニークなクリーンフレームにマップされなければならない。
双方向教師からAR学生を蒸留することは、この条件に反し、教師のフローマップの回復を防ぎ、代わりに条件付き探索ソリューションを誘導し、性能を低下させる。
この問題に対処するため,我々は AR 教師による ODE 初期化を行う Causal Forcing を提案し,アーキテクチャのギャップを埋める。
実験の結果,本手法はすべての指標において,SOTA Self Forcingの19.3\%,VisionRewardの8.7\%,インストラクションフォローの16.7\%を上回った。
プロジェクトページとコード: \href{https://thu-ml.github.io/CausalForcing.github.io/}{https://thu-ml.github.io/CausalForcing.github.io/}
関連論文リスト
- Single Trajectory Distillation for Accelerating Image and Video Style Transfer [22.304420035048942]
拡散に基づくスタイリング手法は、通常、イメージ・ツー・イメージやビデオ・ツー・ビデオのタスクにおいて、特定の部分的なノイズ状態から逸脱する。
特定部分雑音状態から始まる単一軌道蒸留(STD)を提案する。
提案手法は,スタイルの類似性や美的評価の観点から,既存の加速度モデルを超えている。
論文 参考訳(メタデータ) (2024-12-25T16:40:23Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。