論文の概要: LD-ViCE: Latent Diffusion Model for Video Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2509.08422v1
- Date: Wed, 10 Sep 2025 09:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 17:24:19.832518
- Title: LD-ViCE: Latent Diffusion Model for Video Counterfactual Explanations
- Title(参考訳): LD-ViCE:ビデオ対実説明のための潜時拡散モデル
- Authors: Payal Varshney, Adriano Lucieri, Christoph Balada, Sheraz Ahmed, Andreas Dengel,
- Abstract要約: ビデオベースのAIシステムは、自律運転やヘルスケアといった安全クリティカルな領域にますます採用されている。
既存の説明手法は、時間的コヒーレンス、時間的コヒーレンス不足、行動可能な因果的洞察の欠如に悩まされることが多い。
ビデオベースAIモデルの振る舞いを説明するための新しいフレームワークであるLD-ViCE(Latent Diffusion for Video Counterfactual Explanations)を紹介する。
- 参考スコア(独自算出の注目度): 4.887696036006961
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video-based AI systems are increasingly adopted in safety-critical domains such as autonomous driving and healthcare. However, interpreting their decisions remains challenging due to the inherent spatiotemporal complexity of video data and the opacity of deep learning models. Existing explanation techniques often suffer from limited temporal coherence, insufficient robustness, and a lack of actionable causal insights. Current counterfactual explanation methods typically do not incorporate guidance from the target model, reducing semantic fidelity and practical utility. We introduce Latent Diffusion for Video Counterfactual Explanations (LD-ViCE), a novel framework designed to explain the behavior of video-based AI models. Compared to previous approaches, LD-ViCE reduces the computational costs of generating explanations by operating in latent space using a state-of-the-art diffusion model, while producing realistic and interpretable counterfactuals through an additional refinement step. Our experiments demonstrate the effectiveness of LD-ViCE across three diverse video datasets, including EchoNet-Dynamic (cardiac ultrasound), FERV39k (facial expression), and Something-Something V2 (action recognition). LD-ViCE outperforms a recent state-of-the-art method, achieving an increase in R2 score of up to 68% while reducing inference time by half. Qualitative analysis confirms that LD-ViCE generates semantically meaningful and temporally coherent explanations, offering valuable insights into the target model behavior. LD-ViCE represents a valuable step toward the trustworthy deployment of AI in safety-critical domains.
- Abstract(参考訳): ビデオベースのAIシステムは、自律運転やヘルスケアといった安全クリティカルな領域にますます採用されている。
しかし、ビデオデータの時空間的複雑さと深層学習モデルの不透明さのため、これらの決定を解釈することは依然として困難である。
既存の説明手法は、時間的コヒーレンス、不十分な堅牢性、行動可能な因果的洞察の欠如に悩まされることが多い。
現在の対物的説明法は、通常、対象モデルからのガイダンスを取り入れず、意味的忠実度と実用性を減らす。
ビデオベースAIモデルの振る舞いを説明するための新しいフレームワークであるLD-ViCE(Latent Diffusion for Video Counterfactual Explanations)を紹介する。
従来のアプローチと比較して、LD-ViCEは、最先端拡散モデルを用いて潜時空間を演算し、さらなる洗練ステップを通じて現実的で解釈可能な反事実を生成することにより、説明を生成するための計算コストを削減した。
実験では,EchoNet-Dynamic(心エコー),FERV39k(顔面表情),Something V2(行動認識)の3種類のビデオデータセットにおけるLD-ViCEの有効性を実証した。
LD-ViCEは最近の最先端手法よりも優れており、推論時間を半分に減らしながらR2スコアを最大68%向上させる。
質的分析は、LD-ViCEが意味論的に意味があり、時間的に一貫性のある説明を生成し、ターゲットモデルの振る舞いに関する貴重な洞察を提供することを確認している。
LD-ViCEは、安全クリティカルなドメインにおけるAIの信頼性の高い展開に向けた重要なステップである。
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文 参考訳(メタデータ) (2025-06-03T17:55:04Z) - Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight [2.290956583394892]
ビデオ異常検出(VAD)は,大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合することで,大幅な進歩をみせた。
本稿では,2024年における最先端LLM-/VLM法の詳細について述べる。
論文 参考訳(メタデータ) (2024-12-24T09:05:37Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Latent Diffusion Counterfactual Explanations [28.574246724214962]
潜在拡散対実説明(LDCE)について紹介する。
LDCEは、最近のクラスまたはテキスト条件の潜在拡散モデルの能力を利用して、対実生成を高速化する。
LDCEがモデルエラーに対する洞察を提供し、ブラックボックスモデル行動の理解を深める方法を示す。
論文 参考訳(メタデータ) (2023-10-10T14:42:34Z) - Causal Flow-based Variational Auto-Encoder for Disentangled Causal Representation Learning [1.4875602190483512]
遠方表現学習は、各次元が基礎となる生成因子に対応する表現を学習することを目的としている。
因果フローを表現学習プロセスに統合する新しい教師付きVAEフレームワークであるDisentangled Causal Variational Auto-Encoder (DCVAE)を提案する。
我々は,合成データセットと実世界のデータセットの両方でDCVAEを評価し,因果解離と介入実験における優れた能力を示した。
論文 参考訳(メタデータ) (2023-04-18T14:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。