論文の概要: Back to the Feature: Explaining Video Classifiers with Video Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2511.20295v1
- Date: Tue, 25 Nov 2025 13:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.477673
- Title: Back to the Feature: Explaining Video Classifiers with Video Counterfactual Explanations
- Title(参考訳): さかのぼる:ビデオの分類とビデオの非現実的説明
- Authors: Chao Wang, Chengan Che, Xinyue Chen, Sophia Tsoka, Luis C. Garcia-Peraza-Herrera,
- Abstract要約: 対実的説明(英: Counterfactual explanations, CFE)は、モデル予測を変化させるモデルの入力を最小かつ意味的に意味のある修正である。
カウンターファクトビデオが有用であるためには、それらは物理的に妥当で、時間的に一貫性があり、スムーズな動きの軌跡を示す必要がある。
我々はビデオCFEを生成する最適化フレームワークであるBack To The Feature (BTTF)を提案する。
- 参考スコア(独自算出の注目度): 11.039713164587456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual explanations (CFEs) are minimal and semantically meaningful modifications of the input of a model that alter the model predictions. They highlight the decisive features the model relies on, providing contrastive interpretations for classifiers. State-of-the-art visual counterfactual explanation methods are designed to explain image classifiers. The generation of CFEs for video classifiers remains largely underexplored. For the counterfactual videos to be useful, they have to be physically plausible, temporally coherent, and exhibit smooth motion trajectories. Existing CFE image-based methods, designed to explain image classifiers, lack the capacity to generate temporally coherent, smooth and physically plausible video CFEs. To address this, we propose Back To The Feature (BTTF), an optimization framework that generates video CFEs. Our method introduces two novel features, 1) an optimization scheme to retrieve the initial latent noise conditioned by the first frame of the input video, 2) a two-stage optimization strategy to enable the search for counterfactual videos in the vicinity of the input video. Both optimization processes are guided solely by the target classifier, ensuring the explanation is faithful. To accelerate convergence, we also introduce a progressive optimization strategy that incrementally increases the number of denoising steps. Extensive experiments on video datasets such as Shape-Moving (motion classification), MEAD (emotion classification), and NTU RGB+D (action classification) show that our BTTF effectively generates valid, visually similar and realistic counterfactual videos that provide concrete insights into the classifier's decision-making mechanism.
- Abstract(参考訳): 対実的説明(英: Counterfactual explanations, CFE)は、モデル予測を変化させるモデルの入力を最小かつ意味的に意味のある修正である。
彼らはモデルが依存する決定的な特徴を強調し、分類器に対して対照的な解釈を提供する。
画像分類器を説明するために最先端の視覚対実的説明法が設計されている。
ビデオ分類器のためのCFEの生成は、いまだほとんど探索されていない。
カウンターファクトビデオが有用であるためには、それらは物理的に妥当で、時間的に一貫性があり、スムーズな動きの軌跡を示す必要がある。
画像分類器を説明するために設計された既存のCFE画像ベースの手法では、時間的に一貫性があり、滑らかで物理的に可視なビデオCFEを生成する能力が欠如している。
そこで我々は,ビデオCFEを生成する最適化フレームワークであるBack To The Feature (BTTF)を提案する。
提案手法は2つの新しい特徴を導入している。
1)入力ビデオの第1フレームで条件付けられた初期潜時雑音を復元する最適化手法。
2)2段階の最適化手法により,入力映像近傍の対実映像の検索が可能となる。
どちらの最適化プロセスも、対象の分類器によってのみガイドされ、説明が忠実であることを保証する。
また,収束を加速するために,段階的に段数を増加させるプログレッシブ最適化戦略を導入する。
動き分類(運動分類)、MEAD(感情分類)、NTU RGB+D(行動分類)などの動画データセットに対する大規模な実験により、BTTFが有効で視覚的に類似し、現実的な反事実ビデオを生成し、分類者の意思決定メカニズムに関する具体的な洞察を提供することを示した。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - Extending Information Bottleneck Attribution to Video Sequences [4.996373299748921]
本稿では,映像系列への帰属にインフォメーション・ボトルネックを適応させることにより,説明可能な映像分類のための新しいアプローチであるVIBAを紹介する。
以上の結果から,VIBAは時間的・空間的に一貫した説明を発生し,人間のアノテーションと密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2025-01-28T12:19:44Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - View while Moving: Efficient Video Recognition in Long-untrimmed Videos [17.560160747282147]
本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
提案手法は精度と効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-09T09:46:26Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。