論文の概要: MINTIME: Multi-Identity Size-Invariant Video Deepfake Detection
- arxiv url: http://arxiv.org/abs/2211.10996v1
- Date: Sun, 20 Nov 2022 15:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:23:22.660641
- Title: MINTIME: Multi-Identity Size-Invariant Video Deepfake Detection
- Title(参考訳): MINTIME:マルチアイデンティティサイズ不変ビデオディープフェイク検出
- Authors: Davide Alessandro Coccomini, Giorgos Kordopatis Zilos, Giuseppe Amato,
Roberto Caldelli, Fabrizio Falchi, Symeon Papadopoulos, Claudio Gennaro
- Abstract要約: 我々はMINTIMEというビデオディープフェイク検出手法を導入し、空間的および時間的異常を捉え、同じビデオ内の複数の人のインスタンスと顔サイズの変化を処理します。
複数の人を含むビデオにおいて、最大14%のAUCを改善して、ForgeryNetデータセットの最先端結果を達成する。
- 参考スコア(独自算出の注目度): 17.74528571088335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce MINTIME, a video deepfake detection approach that
captures spatial and temporal anomalies and handles instances of multiple
people in the same video and variations in face sizes. Previous approaches
disregard such information either by using simple a-posteriori aggregation
schemes, i.e., average or max operation, or using only one identity for the
inference, i.e., the largest one. On the contrary, the proposed approach builds
on a Spatio-Temporal TimeSformer combined with a Convolutional Neural Network
backbone to capture spatio-temporal anomalies from the face sequences of
multiple identities depicted in a video. This is achieved through an
Identity-aware Attention mechanism that attends to each face sequence
independently based on a masking operation and facilitates video-level
aggregation. In addition, two novel embeddings are employed: (i) the Temporal
Coherent Positional Embedding that encodes each face sequence's temporal
information and (ii) the Size Embedding that encodes the size of the faces as a
ratio to the video frame size. These extensions allow our system to adapt
particularly well in the wild by learning how to aggregate information of
multiple identities, which is usually disregarded by other methods in the
literature. It achieves state-of-the-art results on the ForgeryNet dataset with
an improvement of up to 14% AUC in videos containing multiple people and
demonstrates ample generalization capabilities in cross-forgery and
cross-dataset settings. The code is publicly available at
https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deep fake-Detection
- Abstract(参考訳): 本稿では,空間的および時間的異常を捉え,同一映像中の複数の人物の事例と顔の大きさの変動を取り扱うビデオディープフェイク検出手法であるMINTIMEを紹介する。
以前のアプローチでは、単純なa-posterioriアグリゲーションスキーム(平均または最大演算)を使うか、推論のために1つのアイデンティティ(つまり最大のもの)を使うかで、そのような情報を無視していた。
これに対し,提案手法は,畳み込みニューラルネットワークバックボーンと組み合わされた時空間型タイムフォーマーを基盤とし,ビデオで表現された複数のアイデンティティの顔シーケンスから時空間的異常をキャプチャする。
これは、マスキング操作に基づいて各顔シーケンスに独立して参加し、ビデオレベルのアグリゲーションを容易にするIdentity-aware Attentionメカニズムによって実現される。
さらに2つの新しい埋め込みが採用されている。
(i)各顔の時間的情報をエンコードする時間的コヒーレントな位置埋め込み
(ii)ビデオフレームサイズに対する比として顔の大きさをエンコードするサイズ埋め込み。
これらの拡張により,本システムでは,複数のアイデンティティの情報を収集する方法を学ぶことで,特に自然界において適応することができる。
ForgeryNetデータセットの最先端の結果を達成し、複数の人を含むビデオで最大14%のAUCを改善し、クロスフォージェリとクロスデータセット設定で十分な一般化機能を示す。
コードはhttps://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deep fake-detectionで公開されている。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Seq-Masks: Bridging the gap between appearance and gait modeling for
video-based person re-identification [10.490428828061292]
イデオをベースとした人物識別(Re-ID)は、不随意監視カメラが捉えた映像の人物像をマッチングすることを目的としている。
従来のビデオベースのRe-ID手法では、外観情報の探索に重点を置いており、照明の変化、シーンノイズ、カメラパラメータ、特に衣服やキャリーのバリエーションに対して脆弱である。
映像中のシークエンスマスク(SeqMask)を利用して、外観情報と歩行モデリングを密接な方法で統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T16:00:20Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Self-attention aggregation network for video face representation and
recognition [0.0]
本稿では,自己認識機構に基づく映像顔の表現と認識のための新しいモデルアーキテクチャを提案する。
このアプローチは、シングルおよび複数IDのビデオに使用することができる。
論文 参考訳(メタデータ) (2020-10-11T20:57:46Z) - Sharp Multiple Instance Learning for DeepFake Video Detection [54.12548421282696]
我々はDeepFakeビデオに、ビデオレベルのラベルのみを提供するが、フェイクビデオのすべての顔が操作されるわけではない部分的な顔攻撃という新しい問題を導入する。
インスタンス埋め込みからバッグ予測への直接マッピングを構築する鋭いMIL(S-MIL)を提案する。
FFPMSと広く使われているDFDCデータセットの実験により、S-MILは部分的に攻撃されたDeepFakeビデオ検出において他の手法よりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-08-11T08:52:17Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。