論文の概要: Sharp Multiple Instance Learning for DeepFake Video Detection
- arxiv url: http://arxiv.org/abs/2008.04585v1
- Date: Tue, 11 Aug 2020 08:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:23:23.812530
- Title: Sharp Multiple Instance Learning for DeepFake Video Detection
- Title(参考訳): deepfakeビデオ検出のためのシャープマルチインスタンス学習
- Authors: Xiaodan Li, Yining Lang, Yuefeng Chen, Xiaofeng Mao, Yuan He, Shuhui
Wang, Hui Xue, Quan Lu
- Abstract要約: 我々はDeepFakeビデオに、ビデオレベルのラベルのみを提供するが、フェイクビデオのすべての顔が操作されるわけではない部分的な顔攻撃という新しい問題を導入する。
インスタンス埋め込みからバッグ予測への直接マッピングを構築する鋭いMIL(S-MIL)を提案する。
FFPMSと広く使われているDFDCデータセットの実験により、S-MILは部分的に攻撃されたDeepFakeビデオ検出において他の手法よりも優れていることが確認された。
- 参考スコア(独自算出の注目度): 54.12548421282696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of facial manipulation techniques, face forgery
has received considerable attention in multimedia and computer vision community
due to security concerns. Existing methods are mostly designed for single-frame
detection trained with precise image-level labels or for video-level prediction
by only modeling the inter-frame inconsistency, leaving potential high risks
for DeepFake attackers. In this paper, we introduce a new problem of partial
face attack in DeepFake video, where only video-level labels are provided but
not all the faces in the fake videos are manipulated. We address this problem
by multiple instance learning framework, treating faces and input video as
instances and bag respectively. A sharp MIL (S-MIL) is proposed which builds
direct mapping from instance embeddings to bag prediction, rather than from
instance embeddings to instance prediction and then to bag prediction in
traditional MIL. Theoretical analysis proves that the gradient vanishing in
traditional MIL is relieved in S-MIL. To generate instances that can accurately
incorporate the partially manipulated faces, spatial-temporal encoded instance
is designed to fully model the intra-frame and inter-frame inconsistency, which
further helps to promote the detection performance. We also construct a new
dataset FFPMS for partially attacked DeepFake video detection, which can
benefit the evaluation of different methods at both frame and video levels.
Experiments on FFPMS and the widely used DFDC dataset verify that S-MIL is
superior to other counterparts for partially attacked DeepFake video detection.
In addition, S-MIL can also be adapted to traditional DeepFake image detection
tasks and achieve state-of-the-art performance on single-frame datasets.
- Abstract(参考訳): 顔操作技術の急速な発展に伴い、顔偽造はセキュリティ上の懸念からマルチメディアやコンピュータビジョンのコミュニティでかなりの注目を集めている。
既存の手法は主に、正確な画像レベルのラベルで訓練された単一フレーム検出や、フレーム間の不整合をモデル化するだけでビデオレベルの予測のために設計されており、DeepFake攻撃者にとって潜在的に高いリスクが残る。
本稿では,DeepFakeビデオにおいて,ビデオレベルのラベルのみを提供するが,フェイクビデオのすべての顔が操作されるわけではない部分的な顔攻撃という新たな問題を導入する。
顔と入力ビデオをそれぞれインスタンスとバッグとして扱う,複数のインスタンス学習フレームワークによってこの問題に対処します。
インスタンスの埋め込みからバッグの予測へ、インスタンスの埋め込みからインスタンスの予測へ、そして従来のMILのバッグの予測へ、直接マッピングする鋭いMIL(S-MIL)が提案されている。
理論解析により、従来のMILの勾配はS-MILで緩和されることが示された。
部分的に操作された顔を正確に組み込むことが可能なインスタンスを生成するために、フレーム内およびフレーム間不整合を完全にモデル化するように設計され、さらに検出性能の向上を支援する。
また,DeepFakeビデオ検出のための新しいデータセットFFPMSを構築し,フレームレベルとビデオレベルの異なる手法の評価に有用であることを示す。
FFPMSと広く使われているDFDCデータセットの実験により、S-MILは部分的に攻撃されたDeepFakeビデオ検出の他の手法よりも優れていることが確認された。
さらに、S-MILは従来のDeepFakeイメージ検出タスクにも適用でき、単一のフレームデータセット上で最先端のパフォーマンスを実現することができる。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - GRACE: Graph-Regularized Attentive Convolutional Entanglement with Laplacian Smoothing for Robust DeepFake Video Detection [7.591187423217017]
本稿では,グラフラプラシアンを用いたグラフ畳み込みネットワークに基づく,堅牢なDeepFakeビデオ検出手法を提案する。
提案手法は,雑音の多い顔シーケンス下でのDeepFakeビデオ検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-28T14:17:16Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。