論文の概要: Zero-Shot Video Deraining with Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.18537v1
- Date: Sun, 23 Nov 2025 17:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.888252
- Title: Zero-Shot Video Deraining with Video Diffusion Models
- Title(参考訳): ビデオ拡散モデルによるゼロショット映像のデライニング
- Authors: Tuomas Varanka, Juan Luis Gonzalez, Hyeongwoo Kim, Pablo Garrido, Xu Yao,
- Abstract要約: 本稿では,合成データやモデル微調整を必要としない複雑な動的シーンに対して,最初のゼロショットビデオデラミニング手法を提案する。
我々のアプローチは、実世界の降雨データセットに関する広範な実験を通じて検証される。
- 参考スコア(独自算出の注目度): 11.578999728002065
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing video deraining methods are often trained on paired datasets, either synthetic, which limits their ability to generalize to real-world rain, or captured by static cameras, which restricts their effectiveness in dynamic scenes with background and camera motion. Furthermore, recent works in fine-tuning diffusion models have shown promising results, but the fine-tuning tends to weaken the generative prior, limiting generalization to unseen cases. In this paper, we introduce the first zero-shot video deraining method for complex dynamic scenes that does not require synthetic data nor model fine-tuning, by leveraging a pretrained text-to-video diffusion model that demonstrates strong generalization capabilities. By inverting an input video into the latent space of diffusion models, its reconstruction process can be intervened and pushed away from the model's concept of rain using negative prompting. At the core of our approach is an attention switching mechanism that we found is crucial for maintaining dynamic backgrounds as well as structural consistency between the input and the derained video, mitigating artifacts introduced by naive negative prompting. Our approach is validated through extensive experiments on real-world rain datasets, demonstrating substantial improvements over prior methods and showcasing robust generalization without the need for supervised training.
- Abstract(参考訳): 既存のビデオデラリニング手法は、合成されたデータセットでトレーニングされることが多く、これは現実世界の雨に一般化する能力を制限するか、静的カメラによってキャプチャされ、背景とカメラの動きを持つ動的なシーンでの有効性を制限している。
さらに、近年の微調整拡散モデルの研究は有望な結果を示しているが、微調整は生成前を弱める傾向にあり、一般化は目に見えないケースに限られている。
本稿では,合成データやモデル微調整を必要としない複雑な動的シーンを対象としたゼロショットビデオデライニング手法を提案する。
入力映像を拡散モデルの潜在空間に反転させることにより、その再構成過程を、負のプロンプトを用いてモデルの概念から切り離すことができる。
我々のアプローチの核心は、動的背景の維持と、入力とデラインドビデオの間の構造的整合性を維持するために重要であり、否定的なプロンプトによって導入されたアーティファクトを緩和することにある。
提案手法は,実世界の降雨データセットに関する広範な実験を通じて検証され,従来の手法よりも大幅に改善され,教師あり訓練を必要とせず,堅牢な一般化が示される。
関連論文リスト
- FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining [73.5575992346396]
本稿では,ビデオシーケンスにおけるストリーク除去を改善するために,2分岐時間状態空間モデルを提案する。
マルチフレーム機能融合を改善するために,画素ワイド機能改善のための統計的フィルタを適応的に近似する動的フィルタ積層法を提案する。
降雨環境における他の視覚に基づくタスクを支援する上でのデラミニングモデルの能力をさらに探求するため,我々は新しい実世界ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-05-22T15:50:00Z) - RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining [14.025870185802463]
我々は,シーケンスレベルのローカル情報をよりよくキャプチャするための,新しいヒルベルト機構を備えた改良されたSSMベースのビデオデライニングネットワーク(RainMamba)を提案する。
また,提案したネットワークのパッチレベルの自己相似学習能力を高めるために,差分誘導動的コントラスト学習戦略を導入する。
論文 参考訳(メタデータ) (2024-07-31T17:48:22Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Rethinking Real-world Image Deraining via An Unpaired Degradation-Conditioned Diffusion Model [51.49854435403139]
本研究では,拡散モデルに基づく最初の実世界の画像デライニングパラダイムであるRainDiffを提案する。
安定的で非敵対的なサイクル一貫性のあるアーキテクチャを導入し、トレーニングをエンドツーエンドで行えます。
また,複数の降雨の先行学習によって条件付けられた拡散生成過程を通じて,所望の出力を洗練する劣化条件拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-23T13:34:01Z) - Semi-Supervised Video Deraining with Dynamic Rain Generator [59.71640025072209]
本稿では,降雨層に適合する動的降雨発生器を用いた半教師付きビデオデレーシング手法を提案する。
具体的には、1つのエミッションモデルと1つのトランジションモデルから成り、空間的物理的構造と時系列の雨の連続的な変化を同時にエンコードする。
ラベル付き合成およびラベルなしの実データのために、それらの基礎となる共通知識を十分に活用するために、様々な先行フォーマットが設計されている。
論文 参考訳(メタデータ) (2021-03-14T14:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。