論文の概要: Corruption-Aware Training of Latent Video Diffusion Models for Robust Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2505.21545v1
- Date: Sat, 24 May 2025 20:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.146582
- Title: Corruption-Aware Training of Latent Video Diffusion Models for Robust Text-to-Video Generation
- Title(参考訳): ロバストテキスト・ビデオ生成のための潜時ビデオ拡散モデルの破壊的学習
- Authors: Chika Maduabuchi, Hao Chen, Yujin Han, Jindong Wang,
- Abstract要約: 遅延ビデオ拡散モデル(LVDM)は高品質な生成を実現するが、不完全な条件付けに敏感である。
CAT-LVDMは、構造化されたデータ整合性ノイズ注入によるロバスト性を改善するLVDMの最初の汚職対応トレーニングフレームワークである。
BCNIはWebVid-2M、MSR-VTT、MSVDでFVDを31.9%削減し、SACNはUCF-101で12.3%改善した。
- 参考スコア(独自算出の注目度): 8.459934554810886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Video Diffusion Models (LVDMs) achieve high-quality generation but are sensitive to imperfect conditioning, which causes semantic drift and temporal incoherence on noisy, web-scale video-text datasets. We introduce CAT-LVDM, the first corruption-aware training framework for LVDMs that improves robustness through structured, data-aligned noise injection. Our method includes Batch-Centered Noise Injection (BCNI), which perturbs embeddings along intra-batch semantic directions to preserve temporal consistency. BCNI is especially effective on caption-rich datasets like WebVid-2M, MSR-VTT, and MSVD. We also propose Spectrum-Aware Contextual Noise (SACN), which injects noise along dominant spectral directions to improve low-frequency smoothness, showing strong results on UCF-101. On average, BCNI reduces FVD by 31.9% across WebVid-2M, MSR-VTT, and MSVD, while SACN yields a 12.3% improvement on UCF-101. Ablation studies confirm the benefit of low-rank, data-aligned noise. Our theoretical analysis further explains how such perturbations tighten entropy, Wasserstein, score-drift, mixing-time, and generalization bounds. CAT-LVDM establishes a principled, scalable training approach for robust video diffusion under multimodal noise. Code and models: https://github.com/chikap421/catlvdm
- Abstract(参考訳): 遅延ビデオ拡散モデル(LVDM)は高品質な生成を実現するが、不完全な条件付けに敏感であり、ノイズの多いWebスケールのビデオテキストデータセットに意味的ドリフトと時間的不整合を引き起こす。
CAT-LVDMは、構造化されたデータ整合性ノイズ注入によるロバスト性を改善するLVDMの最初の汚職対応トレーニングフレームワークである。
Batch-Centered Noise Injection (BCNI) は, 時間的整合性を維持するために, バッチ内セマンティックな方向に沿って組込みを摂動する。
BCNIは特に、WebVid-2M、MSR-VTT、MSVDのようなキャプションに富んだデータセットに有効である。
また,低周波スムーズ性向上のために主スペクトル方向に沿ってノイズを注入し,UCF-101に対して強い結果を示すスペクトル認識環境雑音(SACN)を提案する。
BCNIはWebVid-2M、MSR-VTT、MSVDでFVDを31.9%削減し、SACNはUCF-101で12.3%改善した。
アブレーション研究は、低ランクなデータ整列ノイズの利点を裏付ける。
これらの摂動がエントロピー、ワッサーシュタイン、スコアドリフト、混合時間、一般化境界をどのように強めているかを理論的に説明できる。
CAT-LVDMは、マルチモーダルノイズ下でのロバストなビデオ拡散のための原則付きスケーラブルなトレーニング手法を確立する。
コードとモデル:https://github.com/chikap421/catlvdm
関連論文リスト
- DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models [45.126261544696185]
視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
論文 参考訳(メタデータ) (2025-06-04T13:26:33Z) - Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks [10.44351773183656]
VLM(Vision-Language Models)は、ノイズや破損した画像を処理する際に、ジェイルブレイク攻撃に対して脆弱である。
この課題に対処するために、画像とテキストのペアが一致しないマルチモーダル安全データセットであるRobust-VLGuardを提案する。
より強力な最適化に基づく視覚摂動攻撃のための拡散モデルを用いたDiffPure-VLMを提案する。
論文 参考訳(メタデータ) (2025-04-02T02:35:19Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise [13.466125373185399]
分散音響センサ(DAS)技術は光ファイバーケーブルを利用して音響信号を検出する。
DASは、ジオフォンよりも低い信号対雑音比(S/N)を示す。
これにより、S/Nの低減は、反転と解釈を含むデータ解析に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-19T03:09:49Z) - FM2S: Towards Spatially-Correlated Noise Modeling in Zero-Shot Fluorescence Microscopy Image Denoising [33.383511185170214]
蛍光マイクログラフ・トゥ・セルフ (FM2S) は、3つの重要な革新を通じて効率的な蛍光マイクログラフ・トゥ・セルフ (FM2S) を実現するゼロショットデノイザーである。
FM2Sは平均1.4dBPSNRでCVF-SIDを上回り、AP-BSNの0.1%のパラメータを必要とする。
論文 参考訳(メタデータ) (2024-12-13T10:45:25Z) - Rethinking Video Deblurring with Wavelet-Aware Dynamic Transformer and Diffusion Model [15.721601713919803]
拡散モデル(DM)は高周波の詳細を生成するのに強力な能力を持つ。
本稿では,拡散モデルをWavelet-Aware Dynamic Transformerに統合した新しいビデオデブロアリングフレームワークVD-Diffを提案する。
提案するVD-Diffは,GoPro,DVD,BSD,Real-World Videoデータセット上でSOTA法より優れている。
論文 参考訳(メタデータ) (2024-08-24T04:13:47Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Learning Task-Oriented Flows to Mutually Guide Feature Alignment in
Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。
既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。
本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文 参考訳(メタデータ) (2022-08-25T00:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。