論文の概要: Causally Steered Diffusion for Automated Video Counterfactual Generation
- arxiv url: http://arxiv.org/abs/2506.14404v1
- Date: Tue, 17 Jun 2025 11:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.437629
- Title: Causally Steered Diffusion for Automated Video Counterfactual Generation
- Title(参考訳): 自動ビデオカウンタファクト生成のためのカスリーステアリング拡散
- Authors: Nikos Spyrou, Athanasios Vlontzos, Paraskevas Pegios, Thomas Melistas, Nefeli Gkouti, Yannis Panagakis, Giorgos Papanastasiou, Sotirios A. Tsaftaris,
- Abstract要約: 視覚言語モデル(VLM)により導かれる対実映像生成のための因果的忠実な枠組みを提案する。
本手法は,基礎となる映像編集システムに非依存であり,内部機構や微調整モデルへのアクセスは不要である。
この結果から,LDMの学習分布において,因果的忠実な映像反事実を効果的に生成できることが示唆された。
- 参考スコア(独自算出の注目度): 20.388425452936723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting text-to-image (T2I) latent diffusion models for video editing has shown strong visual fidelity and controllability, but challenges remain in maintaining causal relationships in video content. Edits affecting causally dependent attributes risk generating unrealistic or misleading outcomes if these relationships are ignored. In this work, we propose a causally faithful framework for counterfactual video generation, guided by a vision-language model (VLM). Our method is agnostic to the underlying video editing system and does not require access to its internal mechanisms or finetuning. Instead, we guide the generation by optimizing text prompts based on an assumed causal graph, addressing the challenge of latent space control in LDMs. We evaluate our approach using standard video quality metrics and counterfactual-specific criteria, such as causal effectiveness and minimality. Our results demonstrate that causally faithful video counterfactuals can be effectively generated within the learned distribution of LDMs through prompt-based causal steering. With its compatibility with any black-box video editing system, our method holds significant potential for generating realistic "what-if" video scenarios in diverse areas such as healthcare and digital media.
- Abstract(参考訳): 映像編集におけるテキスト・トゥ・イメージ (T2I) 潜時拡散モデルの適用は, 強い視覚的忠実度と制御性を示したが, 映像コンテンツの因果関係の維持には課題が残っている。
因果依存属性に影響する編集は、これらの関係が無視された場合、非現実的または誤解を招く結果を引き起こすリスクを負う。
本稿では,視覚言語モデル (VLM) によって導かれる,反現実的映像生成のための因果的忠実なフレームワークを提案する。
本手法は基盤となる映像編集システムに非依存であり,内部機構や微調整を必要としない。
代わりに、推定因果グラフに基づいてテキストプロンプトを最適化し、LCDにおける潜在空間制御の課題に対処することで、生成をガイドする。
我々は,標準的なビデオ品質指標と,因果的有効性や最小限性などの反ファクト的基準を用いて,我々のアプローチを評価する。
以上の結果から,CDMの学習分布内での因果的忠実な対応が,迅速な因果的ステアリングによって効果的に生成できることが示唆された。
ブラックボックスビデオ編集システムとの互換性により、医療やデジタルメディアなどの多様な領域において、現実的な「何」なビデオシナリオを生成できる大きな可能性を秘めている。
関連論文リスト
- FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [34.887298437323295]
FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。
本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。
実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
論文 参考訳(メタデータ) (2025-06-06T10:00:39Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - UVCG: Leveraging Temporal Consistency for Universal Video Protection [27.03089083282734]
悪意ある編集から映像コンテンツを保護するためにユニバーサルビデオ一貫性ガード(UVCG)を提案する。
UVCGは、連続的かつ知覚不能な摂動を導入することで、他のビデオのコンテンツを保護ビデオに埋め込む。
UVCGをLDM(Latent Diffusion Models)の様々なバージョンに適用し、その有効性と複数の編集パイプラインにおける一般化性を評価する。
論文 参考訳(メタデータ) (2024-11-25T08:48:54Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。