論文の概要: Corruption-Aware Training of Latent Video Diffusion Models for Robust Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2505.21545v1
- Date: Sat, 24 May 2025 20:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.146582
- Title: Corruption-Aware Training of Latent Video Diffusion Models for Robust Text-to-Video Generation
- Title(参考訳): ロバストテキスト・ビデオ生成のための潜時ビデオ拡散モデルの破壊的学習
- Authors: Chika Maduabuchi, Hao Chen, Yujin Han, Jindong Wang,
- Abstract要約: 遅延ビデオ拡散モデル(LVDM)は高品質な生成を実現するが、不完全な条件付けに敏感である。
CAT-LVDMは、構造化されたデータ整合性ノイズ注入によるロバスト性を改善するLVDMの最初の汚職対応トレーニングフレームワークである。
BCNIはWebVid-2M、MSR-VTT、MSVDでFVDを31.9%削減し、SACNはUCF-101で12.3%改善した。
- 参考スコア(独自算出の注目度): 8.459934554810886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Video Diffusion Models (LVDMs) achieve high-quality generation but are sensitive to imperfect conditioning, which causes semantic drift and temporal incoherence on noisy, web-scale video-text datasets. We introduce CAT-LVDM, the first corruption-aware training framework for LVDMs that improves robustness through structured, data-aligned noise injection. Our method includes Batch-Centered Noise Injection (BCNI), which perturbs embeddings along intra-batch semantic directions to preserve temporal consistency. BCNI is especially effective on caption-rich datasets like WebVid-2M, MSR-VTT, and MSVD. We also propose Spectrum-Aware Contextual Noise (SACN), which injects noise along dominant spectral directions to improve low-frequency smoothness, showing strong results on UCF-101. On average, BCNI reduces FVD by 31.9% across WebVid-2M, MSR-VTT, and MSVD, while SACN yields a 12.3% improvement on UCF-101. Ablation studies confirm the benefit of low-rank, data-aligned noise. Our theoretical analysis further explains how such perturbations tighten entropy, Wasserstein, score-drift, mixing-time, and generalization bounds. CAT-LVDM establishes a principled, scalable training approach for robust video diffusion under multimodal noise. Code and models: https://github.com/chikap421/catlvdm
- Abstract(参考訳): 遅延ビデオ拡散モデル(LVDM)は高品質な生成を実現するが、不完全な条件付けに敏感であり、ノイズの多いWebスケールのビデオテキストデータセットに意味的ドリフトと時間的不整合を引き起こす。
CAT-LVDMは、構造化されたデータ整合性ノイズ注入によるロバスト性を改善するLVDMの最初の汚職対応トレーニングフレームワークである。
Batch-Centered Noise Injection (BCNI) は, 時間的整合性を維持するために, バッチ内セマンティックな方向に沿って組込みを摂動する。
BCNIは特に、WebVid-2M、MSR-VTT、MSVDのようなキャプションに富んだデータセットに有効である。
また,低周波スムーズ性向上のために主スペクトル方向に沿ってノイズを注入し,UCF-101に対して強い結果を示すスペクトル認識環境雑音(SACN)を提案する。
BCNIはWebVid-2M、MSR-VTT、MSVDでFVDを31.9%削減し、SACNはUCF-101で12.3%改善した。
アブレーション研究は、低ランクなデータ整列ノイズの利点を裏付ける。
これらの摂動がエントロピー、ワッサーシュタイン、スコアドリフト、混合時間、一般化境界をどのように強めているかを理論的に説明できる。
CAT-LVDMは、マルチモーダルノイズ下でのロバストなビデオ拡散のための原則付きスケーラブルなトレーニング手法を確立する。
コードとモデル:https://github.com/chikap421/catlvdm
関連論文リスト
- Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks [10.44351773183656]
VLM(Vision-Language Models)は、ノイズや破損した画像を処理する際に、ジェイルブレイク攻撃に対して脆弱である。
この課題に対処するために、画像とテキストのペアが一致しないマルチモーダル安全データセットであるRobust-VLGuardを提案する。
より強力な最適化に基づく視覚摂動攻撃のための拡散モデルを用いたDiffPure-VLMを提案する。
論文 参考訳(メタデータ) (2025-04-02T02:35:19Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise [13.466125373185399]
分散音響センサ(DAS)技術は光ファイバーケーブルを利用して音響信号を検出する。
DASは、ジオフォンよりも低い信号対雑音比(S/N)を示す。
これにより、S/Nの低減は、反転と解釈を含むデータ解析に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-19T03:09:49Z) - FM2S: Towards Spatially-Correlated Noise Modeling in Zero-Shot Fluorescence Microscopy Image Denoising [33.383511185170214]
蛍光マイクログラフ・トゥ・セルフ (FM2S) は、3つの重要な革新を通じて効率的な蛍光マイクログラフ・トゥ・セルフ (FM2S) を実現するゼロショットデノイザーである。
FM2Sは平均1.4dBPSNRでCVF-SIDを上回り、AP-BSNの0.1%のパラメータを必要とする。
論文 参考訳(メタデータ) (2024-12-13T10:45:25Z) - Rethinking Video Deblurring with Wavelet-Aware Dynamic Transformer and Diffusion Model [15.721601713919803]
拡散モデル(DM)は高周波の詳細を生成するのに強力な能力を持つ。
本稿では,拡散モデルをWavelet-Aware Dynamic Transformerに統合した新しいビデオデブロアリングフレームワークVD-Diffを提案する。
提案するVD-Diffは,GoPro,DVD,BSD,Real-World Videoデータセット上でSOTA法より優れている。
論文 参考訳(メタデータ) (2024-08-24T04:13:47Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。