論文の概要: Landmark Enhanced Multimodal Graph Learning for Deepfake Video Detection
- arxiv url: http://arxiv.org/abs/2209.05419v1
- Date: Mon, 12 Sep 2022 17:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:33:48.206767
- Title: Landmark Enhanced Multimodal Graph Learning for Deepfake Video Detection
- Title(参考訳): ディープフェイクビデオ検出のためのランドマーク強化マルチモーダルグラフ学習
- Authors: Zhiyuan Yan, Peng Sun, Yubo Lang, Shuo Du, Shanzhuo Zhang, Wei Wang
- Abstract要約: 本稿では,複数のモダリティの情報と顔のランドマークの幾何学的特徴に基づくグラフニューラルネットワーク(GNN)を提案する。
我々の手法は、広く使用されているベンチマークにおいて、常に最先端のSOTA(State-of-the-art)よりも優れています。
- 参考スコア(独自算出の注目度): 9.102431727231085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of face forgery technology, deepfake videos have
attracted widespread attention in digital media. Perpetrators heavily utilize
these videos to spread disinformation and make misleading statements. Most
existing methods for deepfake detection mainly focus on texture features, which
are likely to be impacted by external fluctuations, such as illumination and
noise. Besides, detection methods based on facial landmarks are more robust
against external variables but lack sufficient detail. Thus, how to effectively
mine distinctive features in the spatial, temporal, and frequency domains and
fuse them with facial landmarks for forgery video detection is still an open
question. To this end, we propose a Landmark Enhanced Multimodal Graph Neural
Network (LEM-GNN) based on multiple modalities' information and geometric
features of facial landmarks. Specifically, at the frame level, we have
designed a fusion mechanism to mine a joint representation of the spatial and
frequency domain elements while introducing geometric facial features to
enhance the robustness of the model. At the video level, we first regard each
frame in a video as a node in a graph and encode temporal information into the
edges of the graph. Then, by applying the message passing mechanism of the
graph neural network (GNN), the multimodal feature will be effectively combined
to obtain a comprehensive representation of the video forgery. Extensive
experiments show that our method consistently outperforms the state-of-the-art
(SOTA) on widely-used benchmarks.
- Abstract(参考訳): 顔偽造技術の急速な発展に伴い、ディープフェイクビデオはデジタルメディアで広く注目を集めている。
犯人はこれらのビデオを利用して偽情報を拡散し、誤解を招く声明を出す。
既存のディープフェイク検出法は主にテクスチャの特徴に焦点を当てており、照明やノイズなどの外部のゆらぎの影響を受けやすい。
さらに、顔のランドマークに基づく検出方法は、外部変数に対してより堅牢であるが、詳細は不十分である。
したがって、空間、時間、周波数領域の特徴的な特徴を効果的にマイニングし、偽ビデオ検出のために顔のランドマークと融合する方法は、まだ未解決の問題である。
この目的のために,複数のモダリティの情報と顔のランドマークの幾何学的特徴に基づくLandmark Enhanced Multimodal Graph Neural Network (LEM-GNN)を提案する。
特に,フレームレベルでは,空間領域と周波数領域の要素の結合表現をマイニングすると同時に,モデルのロバスト性を高めるために幾何学的顔特徴を導入する融合機構を考案した。
ビデオレベルでは、まずビデオの各フレームをグラフ内のノードとみなし、時系列情報をグラフのエッジにエンコードする。
次に、グラフニューラルネットワーク(GNN)のメッセージパッシング機構を適用することにより、マルチモーダル機能を効果的に組み合わせて、ビデオ偽造の包括的な表現を得る。
大規模な実験により,我々の手法は広く使用されているベンチマークにおいて常に最先端のSOTA(State-of-the-art)よりも優れていた。
関連論文リスト
- Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Detection of Deepfake Videos Using Long Distance Attention [73.6659488380372]
既存のほとんどの検出方法は、問題をバニラ二項分類問題として扱う。
本稿では,偽顔と実顔の相違が非常に微妙であるため,特にきめ細かな分類問題として扱われる。
大域的な視点で空間的・時間的偽の痕跡を捉えるための2つの要素を持つ時空間モデルを提案する。
論文 参考訳(メタデータ) (2021-06-24T08:33:32Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Fake Visual Content Detection Using Two-Stream Convolutional Neural
Networks [14.781702606707642]
周波数領域と空間領域の特徴を補完する2ストリーム畳み込みニューラルネットワークアーキテクチャであるTwoStreamNetを提案する。
提案手法は, 現状の偽コンテンツ検出装置に比べ, 大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-01-03T18:05:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。