論文の概要: Extending Information Bottleneck Attribution to Video Sequences
- arxiv url: http://arxiv.org/abs/2501.16889v1
- Date: Tue, 28 Jan 2025 12:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:38.635537
- Title: Extending Information Bottleneck Attribution to Video Sequences
- Title(参考訳): 映像系列に対する情報ボトルネック属性の拡張
- Authors: Veronika Solopova, Lucas Schmidt, Dorothea Kolossa,
- Abstract要約: 本稿では,映像系列への帰属にインフォメーション・ボトルネックを適応させることにより,説明可能な映像分類のための新しいアプローチであるVIBAを紹介する。
以上の結果から,VIBAは時間的・空間的に一貫した説明を発生し,人間のアノテーションと密接に一致していることが示唆された。
- 参考スコア(独自算出の注目度): 4.996373299748921
- License:
- Abstract: We introduce VIBA, a novel approach for explainable video classification by adapting Information Bottlenecks for Attribution (IBA) to video sequences. While most traditional explainability methods are designed for image models, our IBA framework addresses the need for explainability in temporal models used for video analysis. To demonstrate its effectiveness, we apply VIBA to video deepfake detection, testing it on two architectures: the Xception model for spatial features and a VGG11-based model for capturing motion dynamics through optical flow. Using a custom dataset that reflects recent deepfake generation techniques, we adapt IBA to create relevance and optical flow maps, visually highlighting manipulated regions and motion inconsistencies. Our results show that VIBA generates temporally and spatially consistent explanations, which align closely with human annotations, thus providing interpretability for video classification and particularly for deepfake detection.
- Abstract(参考訳): 本稿では,映像系列にInformation Bottlenecks for Attribution (IBA)を適用することで,説明可能な映像分類のための新しいアプローチであるVIBAを紹介する。
従来の説明可能性手法の多くは画像モデル用に設計されているが,映像解析に使用される時間モデルでは説明可能性の必要性に対処する。
その効果を実証するため,ビデオ深度検出にVIBAを適用し,空間特徴のXceptionモデルと光学的流れの運動力学を捉えるVGG11ベースのモデルという2つのアーキテクチャで検証した。
近年のディープフェイク生成技術を反映したカスタムデータセットを使用して、ICAを適用して、関連性や光フローマップを作成し、操作された領域や動きの不整合を視覚的に強調する。
以上の結果から,VIBAは時間的・空間的に一貫した説明を生成し,人間のアノテーションと密接に一致し,ビデオ分類,特にディープフェイク検出のための解釈可能性を提供することがわかった。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Exploiting Style Latent Flows for Generalizing Deepfake Video Detection [17.47632743516689]
提案手法は, 映像の時間的変化におけるスタイル潜在ベクトルの解析と異常挙動に基づいて, フェイクビデオの検出を行う手法である。
我々のフレームワークは、スタイル潜在ベクトルの動的特性を表現するために、コントラスト学習によって訓練されたStyleGRUモジュールを利用する。
論文 参考訳(メタデータ) (2024-03-11T10:35:58Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos [9.209808258321559]
本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Dynamic texture analysis for detecting fake faces in video sequences [6.1356022122903235]
本研究では,映像信号のテクスチャ・時間的ダイナミクスの解析について検討する。
目標は、実際の偽のシーケンスを識別し、識別することである。
時間セグメントの連成解析に基づいて複数の二分決定を構築することを提案する。
論文 参考訳(メタデータ) (2020-07-30T07:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。