論文の概要: CAST: Cross-Attentive Spatio-Temporal feature fusion for Deepfake detection
- arxiv url: http://arxiv.org/abs/2506.21711v1
- Date: Thu, 26 Jun 2025 18:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.979461
- Title: CAST: Cross-Attentive Spatio-Temporal feature fusion for Deepfake detection
- Title(参考訳): CAST : ディープフェイク検出のための横断的時空間的特徴フュージョン
- Authors: Aryan Thakre, Omkar Nagwekar, Vedang Talekar, Aparna Santra Biswas,
- Abstract要約: CNNは空間的アーティファクトのキャプチャに有効であり、Transformerは時間的不整合のモデリングに優れている。
本稿では,空間的特徴と時間的特徴を効果的に融合させるために,クロスアテンションを利用した統合CASTモデルを提案する。
我々はFaceForensics++、Celeb-DF、DeepfakeDetectionデータセットを用いてモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfakes have emerged as a significant threat to digital media authenticity, increasing the need for advanced detection techniques that can identify subtle and time-dependent manipulations. CNNs are effective at capturing spatial artifacts, and Transformers excel at modeling temporal inconsistencies. However, many existing CNN-Transformer models process spatial and temporal features independently. In particular, attention-based methods often use separate attention mechanisms for spatial and temporal features and combine them using naive approaches like averaging, addition, or concatenation, which limits the depth of spatio-temporal interaction. To address this challenge, we propose a unified CAST model that leverages cross-attention to effectively fuse spatial and temporal features in a more integrated manner. Our approach allows temporal features to dynamically attend to relevant spatial regions, enhancing the model's ability to detect fine-grained, time-evolving artifacts such as flickering eyes or warped lips. This design enables more precise localization and deeper contextual understanding, leading to improved performance across diverse and challenging scenarios. We evaluate the performance of our model using the FaceForensics++, Celeb-DF, and DeepfakeDetection datasets in both intra- and cross-dataset settings to affirm the superiority of our approach. Our model achieves strong performance with an AUC of 99.49 percent and an accuracy of 97.57 percent in intra-dataset evaluations. In cross-dataset testing, it demonstrates impressive generalization by achieving a 93.31 percent AUC on the unseen DeepfakeDetection dataset. These results highlight the effectiveness of cross-attention-based feature fusion in enhancing the robustness of deepfake video detection.
- Abstract(参考訳): ディープフェイクはデジタルメディアの信頼性に対する重大な脅威として現れており、微妙で時間依存的な操作を識別する高度な検出技術の必要性が高まっている。
CNNは空間的アーティファクトのキャプチャに有効であり、Transformerは時間的不整合のモデリングに優れている。
しかし、既存のCNN-Transformerモデルの多くは、空間的特徴と時間的特徴を独立に処理している。
特に、注意に基づく手法では、空間的特徴と時間的特徴に対して別々の注意機構を使用し、平均化、加算、結合といった自然なアプローチを用いてそれらを組み合わせ、時空間相互作用の深さを制限する。
この課題に対処するために,クロスアテンションを利用して空間的特徴と時間的特徴をより統合的に効果的に融合する統合CASTモデルを提案する。
提案手法により,時間的特徴を関連空間領域に動的に対応させることができ,フリックングアイや歪んだ唇などの細粒度で時間的に変化する人工物を検出するモデルの能力を高めることができる。
この設計により、より正確なローカライゼーションとより深いコンテキスト理解が可能になる。
我々は、FaceForensics++、Celeb-DF、DeepfakeDetectionのデータセットを用いて、データ内およびクロスデータセット設定でモデルの性能を評価し、アプローチの優位性を確認する。
我々のモデルは、99.9%のAUCと97.57パーセントの精度で、高い性能を達成する。
クロスデータセットテストでは、目に見えないDeepfakeDetectionデータセット上で93.31パーセントのAUCを達成することで、印象的な一般化を実証している。
これらの結果は、ディープフェイク映像検出の堅牢性を高めるために、クロスアテンションに基づく特徴融合の有効性を強調した。
関連論文リスト
- Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better [63.567886330598945]
赤外線小目標(IRST)検出は、精度、普遍性、堅牢性、効率的な性能を同時に達成する上で困難である。
現在の学習に基づく手法は、空間的領域と短期的領域の両方から"より多くの情報を活用する。
本稿では、IRST検出のための時間次元でのみ計算を行う効率的な深部プローブネットワーク(DeepPro)を提案する。
論文 参考訳(メタデータ) (2025-06-15T08:19:32Z) - FAME: A Lightweight Spatio-Temporal Network for Model Attribution of Face-Swap Deepfakes [9.462613446025001]
フェイスフェイクのDeepfakeビデオは、デジタルセキュリティ、プライバシー、メディアの整合性へのリスクが高まる。
FAMEは、異なる顔生成モデルに特有の微妙なアーティファクトをキャプチャするために設計されたフレームワークである。
結果は、FAMEが既存のメソッドを精度と実行時の両方で一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-13T05:47:09Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection [0.0]
無人航空機からの絶縁体欠陥検出のための既存の検出方法は、複雑な背景や小さな物体と競合する。
本稿では,この課題に対処するため,新しい注目基盤アーキテクチャであるYOLO-ELAを提案する。
高分解能UAV画像による実験結果から,本手法は96.9% mAP0.5,リアルタイム検出速度74.63フレーム/秒を実現した。
論文 参考訳(メタデータ) (2024-10-15T16:00:01Z) - Spiking Transformer with Spatial-Temporal Attention [26.7175155847563]
SpikeベースのTransformerは、従来のニューラルネットワーク(ANN)ベースのTransformerに代わる、魅力的でエネルギー効率のよい代替手段を提供する。
本研究では,空間的・時間的情報を自己認識機構に効率よく統合する,シンプルかつ簡単なアーキテクチャである空間時間注意型スパイキングトランスフォーマーを提案する。
アーキテクチャのオーバーホールなしに既存のスパイクベースのトランスにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-29T20:29:39Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation Model [16.69101880602321]
一般化ビデオに基づくDeepfake検出のためのサイドネットワークベースのデコーダを提案する。
また、空間学習の一般化性を高めるために、FCG(Facial Component Guidance)を導入する。
提案手法は,Deepfakeデータセットに挑戦する上で有望な一般化性を示す。
論文 参考訳(メタデータ) (2024-04-08T14:58:52Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - STC-IDS: Spatial-Temporal Correlation Feature Analyzing based Intrusion
Detection System for Intelligent Connected Vehicles [7.301018758489822]
車両内通信トラフィック(STC-IDS)の時空間相関特性を用いた自動車侵入検出の新しいモデルを提案する。
具体的には、エンコーダ部では、空間的関係と時間的関係を同時に符号化する。
符号化された情報は検出器に渡され、強制的な空間的時間的注意特徴を生成し、異常分類を可能にする。
論文 参考訳(メタデータ) (2022-04-23T04:22:58Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。