論文の概要: Early Failure Detection and Intervention in Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.14320v1
- Date: Sun, 15 Mar 2026 10:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.745003
- Title: Early Failure Detection and Intervention in Video Diffusion Models
- Title(参考訳): ビデオ拡散モデルにおける早期故障検出と干渉
- Authors: Kwon Byung-Ki, Sohwi Lim, Nam Hyeon-Woo, Moon Ye-Bin, Tae-Hyun Oh,
- Abstract要約: 遅延T2V拡散モデルに対する早期故障検出と診断介入パイプラインを提案する。
検出のために,リアルタイム検査(RI)モジュールを設計し,ラテントを中間映像プレビューに変換する。
CogVideoX-5BとWan2.1-1.3Bの実験では、VBenchでは最大2.64倍の時間オーバーヘッドで一貫性が向上した。
- 参考スコア(独自算出の注目度): 26.52125777621677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) diffusion models have rapidly advanced, yet generations still occasionally fail in practice, such as low text-video alignment or low perceptual quality. Since diffusion sampling is non-deterministic, it is difficult to know during inference whether a generation will succeed or fail, incurring high computational cost due to trial-and-error regeneration. To address this, we propose an early failure detection and diagnostic intervention pipeline for latent T2V diffusion models. For detection, we design a Real-time Inspection (RI) module that converts latents into intermediate video previews, enabling the use of established text-video alignment scorers for inspection in the RGB space. The RI module completes the conversion and inspection process in just 39.2ms. This is highly efficient considering that CogVideoX-5B requires 4.3s per denoising step when generating a 480p, 49-frame video on an NVIDIA A100 GPU. Subsequently, we trigger a hierarchical and early-exit intervention pipeline only when failure is predicted. Experiments on CogVideoX-5B and Wan2.1-1.3B demonstrate consistency gains on VBench with up to 2.64 times less time overhead compared to post-hoc regeneration. Our method also generalizes to a higher-capacity setting, remaining effective on Wan2.1-14B with 720p resolution and 81-frame generation. Furthermore, our pipeline is plug-and-play and orthogonal to existing techniques, showing seamless compatibility with prompt refinement and sampling guidance methods. We also provide evidence that failure signals emerge early in the denoising process and are detectable within intermediate video previews using standard vision-language evaluators.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)拡散モデルは急速に進歩しているが、テキスト・ビデオのアライメントの低さや知覚品質の低さなど、時折失敗することがある。
拡散サンプリングは非決定論的であるため、世代が成功するか失敗するかの推論中に知ることは困難であり、試行錯誤による高い計算コストが生じる。
そこで本研究では,遅延T2V拡散モデルに対する早期故障検出と診断介入パイプラインを提案する。
検出のために,リアルタイム検査(RI)モジュールを設計し,ラテントを中間的なビデオプレビューに変換することにより,RGB空間の検査に確立されたテキスト・ビデオアライメントスコアラを使用できる。
RIモジュールは変換と検査をわずか39.2msで完了する。
これは、NVIDIA A100 GPU上で480p、49フレームのビデオを生成する際に、CogVideoX-5Bが1デノイングステップあたり4.3sを必要とすることを考えると、非常に効率的である。
その後、障害が予測された場合にのみ、階層的かつ早期に介入するパイプラインを起動する。
CogVideoX-5B と Wan2.1-1.3B の実験では、VBench では保温後の再生に比べて最大2.64 倍の時間オーバーヘッドで一貫性が向上した。
また,Wan2.1-14Bでは720pの解像度と81フレームの生成が可能な高容量化を実現している。
さらに,我々のパイプラインはプラグアンドプレイであり,既存の技術と直交し,迅速な改良とサンプリング誘導手法とのシームレスな互換性を示す。
また,デノナイズプロセスの早期に故障信号が出現し,標準視覚言語評価器を用いて中間映像プレビューで検出可能であることを示す。
関連論文リスト
- Streaming Autoregressive Video Generation via Diagonal Distillation [50.13573884115673]
自己回帰モデルは、シーケンシャルフレーム合成のための自然なフレームワークを提供するが、高い忠実性を達成するためには重い計算を必要とする。
ビデオチャンクとデノイングステップの時間的情報を活用するために,ダイアゴナル蒸留を提案する。
本手法は,2.61秒(最大31FPS)で5秒ビデオを生成し,未蒸留モデル上で277.3倍のスピードアップを実現する。
論文 参考訳(メタデータ) (2026-03-10T10:45:24Z) - Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration [58.19554276924402]
スペクトル拡散特徴予測器(Spectrum)を提案する。
我々はFLUX.1で4.79$times$スピードアップ、Wan2.1-14Bで4.67$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2026-03-02T08:59:11Z) - Pseudo Anomalies Are All You Need: Diffusion-Based Generation for Weakly-Supervised Video Anomaly Detection [2.4832691511446163]
実ビデオと組み合わせた合成擬似異常ビデオから検出器を学習する,世代駆動型アプローチであるPA-VADを導入する。
合成のために,CLIPを用いたクラス関連初期画像を選択し,視覚言語モデルでプロンプトを洗練し,忠実度とシーンの一貫性を向上させる。
トレーニングでは、ドメイン整列正則化モジュールによる合成異常の過度なビデオサイズを緩和する。
論文 参考訳(メタデータ) (2025-12-07T13:43:19Z) - BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [27.57431718095974]
本稿では,ビデオ推論のためのデータフリー共同学習フレームワークBLADEを紹介する。
異なるスケールで顕著な効率向上を示す。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-08-14T15:58:59Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。