論文の概要: Causally Steered Diffusion for Automated Video Counterfactual Generation
- arxiv url: http://arxiv.org/abs/2506.14404v2
- Date: Tue, 05 Aug 2025 10:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.369373
- Title: Causally Steered Diffusion for Automated Video Counterfactual Generation
- Title(参考訳): 自動ビデオカウンタファクト生成のためのカスリーステアリング拡散
- Authors: Nikos Spyrou, Athanasios Vlontzos, Paraskevas Pegios, Thomas Melistas, Nefeli Gkouti, Yannis Panagakis, Giorgos Papanastasiou, Sotirios A. Tsaftaris,
- Abstract要約: 本稿では,アウト・オブ・ディストリビューション(OOD)予測問題として定式化された,反ファクトビデオ生成のための因果的忠実なフレームワークを提案する。
我々は、因果グラフに指定された関係をテキストプロンプトにエンコードし、生成プロセスを導くことによって、先行因果知識を組み込む。
この損失は、LDMの潜伏空間において、OODの変動を反ファクトの形で捉え、因果的に有意な代替品に向けて効果的に生成を操る。
- 参考スコア(独自算出の注目度): 20.388425452936723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting text-to-image (T2I) latent diffusion models (LDMs) to video editing has shown strong visual fidelity and controllability, but challenges remain in maintaining causal relationships inherent to the video data generating process. Edits affecting causally dependent attributes often generate unrealistic or misleading outcomes if these relationships are ignored. In this work, we introduce a causally faithful framework for counterfactual video generation, formulated as an Out-of-Distribution (OOD) prediction problem. We embed prior causal knowledge by encoding the relationships specified in a causal graph into text prompts and guide the generation process by optimizing these prompts using a vision-language model (VLM)-based textual loss. This loss encourages the latent space of the LDMs to capture OOD variations in the form of counterfactuals, effectively steering generation toward causally meaningful alternatives. The proposed framework, dubbed CSVC, is agnostic to the underlying video editing system and does not require access to its internal mechanisms or fine-tuning. We evaluate our approach using standard video quality metrics and counterfactual-specific criteria, such as causal effectiveness and minimality. Experimental results show that CSVC generates causally faithful video counterfactuals within the LDM distribution via prompt-based causal steering, achieving state-of-the-art causal effectiveness without compromising temporal consistency or visual quality on real-world facial videos. Due to its compatibility with any black-box video editing system, our framework has significant potential to generate realistic 'what if' hypothetical video scenarios in diverse areas such as digital media and healthcare.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)潜時拡散モデル(LDM)をビデオ編集に適用すると、視覚的忠実度と制御性が強くなるが、ビデオデータ生成プロセスに固有の因果関係を維持することが課題である。
因果依存属性に影響する編集は、これらの関係が無視された場合、非現実的または誤解を招く結果をもたらすことが多い。
本稿では,アウト・オブ・ディストリビューション(OOD)予測問題として定式化された,反ファクトビデオ生成のための因果的忠実なフレームワークを提案する。
因果グラフに指定された関係をテキストプロンプトに符号化し、これらのプロンプトを視覚言語モデル(VLM)ベースのテキストロスを用いて最適化し、生成プロセスを導くことにより、先行因果知識を組み込む。
この損失は、LDMの潜伏空間において、OODの変動を反ファクトの形で捉え、因果的に有意な代替品に向けて効果的に生成を操る。
提案フレームワークはCSVCと呼ばれ、基盤となるビデオ編集システムには依存せず、内部機構や微調整を必要としない。
我々は,標準的なビデオ品質指標と,因果的有効性や最小限性などの反ファクト的基準を用いて,我々のアプローチを評価する。
実験の結果,CSVCは実世界の顔映像における時間的整合性や視覚的品質を損なうことなく,迅速な因果的ステアリングにより,LCM分布内に因果的忠実な映像対物を生成することが明らかとなった。
ブラックボックスビデオ編集システムと互換性があるため、我々のフレームワークはデジタルメディアや医療など様々な分野の仮想ビデオシナリオを現実的に生成する大きな可能性を秘めている。
関連論文リスト
- Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment [19.682019558287973]
私たちはDVidE(Defeasible Video Entailment)を紹介します。
DVidEでは、ビデオ前提とテキスト仮説が考慮され、新しい更新が仮説を強化または弱めるかどうかをモデルが判断しなければならない。
生成タスクにおいて、ASR出力とLLM(Large Language Model)を組み合わせ、一貫性のある文脈に関連のある更新を生成するフレームワークを開発する。
論文 参考訳(メタデータ) (2025-06-27T16:51:15Z) - DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [34.887298437323295]
FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。
本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。
実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
論文 参考訳(メタデータ) (2025-06-06T10:00:39Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - UVCG: Leveraging Temporal Consistency for Universal Video Protection [27.03089083282734]
悪意ある編集から映像コンテンツを保護するためにユニバーサルビデオ一貫性ガード(UVCG)を提案する。
UVCGは、連続的かつ知覚不能な摂動を導入することで、他のビデオのコンテンツを保護ビデオに埋め込む。
UVCGをLDM(Latent Diffusion Models)の様々なバージョンに適用し、その有効性と複数の編集パイプラインにおける一般化性を評価する。
論文 参考訳(メタデータ) (2024-11-25T08:48:54Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。