Fugu-MT 論文翻訳(概要): CAM-VFD: Cross-Attention Multimodal Video Forgery Detection

論文の概要: CAM-VFD: Cross-Attention Multimodal Video Forgery Detection

arxiv url: http://arxiv.org/abs/2605.17133v1
Date: Sat, 16 May 2026 19:46:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 23:51:08.353009
Title: CAM-VFD: Cross-Attention Multimodal Video Forgery Detection
Title（参考訳）: CAM-VFD:クロスアテンションマルチモーダルビデオフォージェリ検出
Authors: Hoda Osama Elkhodary, Sherin Mostafa Youssef, Marwa Elshenawy, Dalia Sobhy,
Abstract要約: 本稿では,CAM-VFDを提案する。このフレームワークは、CLIPベースの外観表現がビデオMAEモーション機能に対するクエリとして機能する、クロスアテンション融合機構を使用している。 2つの世代別ビデオベンチマークの結果、GenVidBenchの95.31%の精度、93.43%の精度、90.63%のF1スコア、96.56%のAUROCが一貫したパフォーマンスを示している。
参考スコア（独自算出の注目度）: 0.04666493857924356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of Deepfake technologies and video manipulation tools poses a critical challenge to multimedia forensics, judicial evidence integrity, and information authenticity. Current detectors rely on single-modality signals, treating appearance, geometry, and motion independently. However, advanced generators maintain within-modality consistency while producing cross-modal contradictions, which are forensically discriminative but invisible to any single-modal detector. We propose CAM-VFD, a Cross-Attention Multimodal Video Forgery Detection framework that models cross-modal contradiction as a directional forensic signal. The framework uses a cross-attention fusion mechanism in which CLIP-based appearance representations serve as queries against VideoMAE motion features and MiDaS depth features, enabling the identification of contradictions between visual, temporal, and geometric evidence. We examine this design through cross-modal attention discrepancy analysis, observing statistically separable real and fake distributions ($p<0.001$, Cohen's $d=0.68$). Experimental results on two generative video benchmarks indicate consistent performance, with 95.31\% Top-1 accuracy on GenVidBench and 93.43\% accuracy, 90.63\% F1-score, and 96.56\% AUROC on GenVideo. Moreover, CAM-VFD demonstrates stable performance under compression, noise, blur, and adversarial perturbations, suggesting that cross-modal reasoning may improve robustness in media forensics. The code is publicly available at \url{https://github.com/Hoda-Osama/CAM-VFD/tree/main}.
Abstract（参考訳）: ディープフェイク技術とビデオ操作ツールの急速な進歩は、マルチメディアの法医学、司法証拠の完全性、情報の真正性にとって重要な課題となっている。現在の検出器は単一モード信号に依存し、外観、幾何学、動きを独立して扱う。しかし、先進的な発電機はモダリティの整合性を維持しつつクロスモダリティの矛盾を生じさせ、これは法的な差別であり、いかなる単一モダリティ検出器にも見えない。本稿では,CAM-VFDを提案する。CAM-VFDは,クロスモーダルの矛盾を指向性鑑定信号としてモデル化する多モードビデオフォージェリ検出フレームワークである。このフレームワークは、CLIPベースの外観表現が、ビデオMAE運動特徴とMiDaS深度特徴に対するクエリとして機能し、視覚的、時間的、幾何学的証拠の矛盾を識別するクロスアテンション融合機構を使用する。この設計は、モーダルな注意差分分析により、統計的に分離可能な実および偽の分布(p<0.001$, Cohen's $d=0.68$)を観察する。 GenVidBenchでは95.31\%、GenVideoでは93.43\%、F1スコアでは90.63\%、AUROCでは96.56\%である。さらに, CAM-VFDは, 圧縮, ノイズ, ぼかし, 逆方向の摂動下での安定した性能を示す。コードは \url{https://github.com/Hoda-Osama/CAM-VFD/tree/main} で公開されている。

関連論文リスト

Attribution-Guided Multimodal Deepfake Detection via Cross-Modal Forensic Fingerprints [4.598350938853635]
ビデオの偽造方法を特定することができない検出器は、間違ったシグナルを学習している可能性が高い、と私たちは主張する。二分検出とは異なり、帰属誘導学習は共有埋め込み空間に強い幾何学的制約を課す。本稿では,属性検出と属性抽出を共同で学習する属性誘導型マルチモーダルディープフェイク検出フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-29T09:11:13Z)
ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors [58.45131932883374]
ビデオ中のディープフェイクを検出するための完全自己教師型アプローチを提案する。本モデルでは,拡散再構成誤差を用いて,疑わしい映像とパーソナライズされた被写体との同一性距離を算出する。本手法は, ボケや圧縮などの汚損に対して極めて堅牢であり, 現実の顔偽造検出への適用性を強調している。
論文参考訳（メタデータ） (2026-01-05T18:59:54Z)
Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning [61.3737746844896]
既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。本稿では,拡散生成ビデオの検出に特化して設計したMM-Det++という統合マルチモーダル検出手法を提案する。
論文参考訳（メタデータ） (2025-11-22T16:05:12Z)
CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation [24.952907733127223]
クロスモーダルアライメント・蒸留(CAD)を用いたビデオディープフェイク検出のための一般的なフレームワークを提案する。 1)高レベルのセマンティックシンセシスにおける矛盾を識別するクロスモーダルアライメント(例:リップ音声ミスマッチ)、2)モダリティ特異的な法医学的痕跡(例:合成音声のスペクトル歪み)を保存しながらミスマッチを緩和するクロスモーダル蒸留(例:合成音声のスペクトル歪み)である。
論文参考訳（メタデータ） (2025-05-21T08:11:07Z)
Consistency-aware Fake Videos Detection on Short Video Platforms [4.291448222735821]
本稿では,ショートビデオプラットフォーム上でのフェイクニュースの検出に焦点をあてる。既存のアプローチは通常、分類層を適用する前に生のビデオデータとメタデータの入力を組み合わせる。この知見に触発された本研究では,クロスモーダルな矛盾を明示的に識別し,活用する新たな検出パラダイムを提案する。
論文参考訳（メタデータ） (2025-04-30T10:26:04Z)
Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文参考訳（メタデータ） (2025-02-11T00:07:40Z)
Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文参考訳（メタデータ） (2024-07-29T02:12:11Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文参考訳（メタデータ） (2020-11-05T11:34:12Z)
Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。 448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文参考訳（メタデータ） (2020-07-07T15:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。