論文の概要: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2204.06228v2
- Date: Thu, 4 May 2023 00:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 17:51:21.814773
- Title: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization
- Title(参考訳): 本当にそうなの?
コンテンツ駆動型オーディオ・ビジュアルディープフェイクデータセットと時間的偽造ローカライズのためのマルチモーダル法
- Authors: Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
- Abstract要約: LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
- 参考スコア(独自算出の注目度): 19.490174583625862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to its high societal impact, deepfake detection is getting active
attention in the computer vision community. Most deepfake detection methods
rely on identity, facial attributes, and adversarial perturbation-based
spatio-temporal modifications at the whole video or random locations while
keeping the meaning of the content intact. However, a sophisticated deepfake
may contain only a small segment of video/audio manipulation, through which the
meaning of the content can be, for example, completely inverted from a
sentiment perspective. We introduce a content-driven audio-visual deepfake
dataset, termed Localized Audio Visual DeepFake (LAV-DF), explicitly designed
for the task of learning temporal forgery localization. Specifically, the
content-driven audio-visual manipulations are performed strategically to change
the sentiment polarity of the whole video. Our baseline method for benchmarking
the proposed dataset is a 3DCNN model, termed as Boundary Aware Temporal
Forgery Detection (BA-TFD), which is guided via contrastive, boundary matching,
and frame classification loss functions. Our extensive quantitative and
qualitative analysis demonstrates the proposed method's strong performance for
temporal forgery localization and deepfake detection tasks.
- Abstract(参考訳): 社会的影響が大きいため、ディープフェイク検出はコンピュータビジョンコミュニティで活発に注目を集めている。
ほとんどのディープフェイク検出方法は、コンテンツの意味をそのまま保ちながら、ビデオ全体やランダムな場所におけるアイデンティティ、顔の特徴、対向的摂動に基づく時空間的変化に依存している。
しかし、洗練されたディープフェイクは、コンテンツの意味が、例えば、感情の観点から完全に逆転できる、ビデオ/オーディオ操作の小さな部分のみを含むことができる。
本稿では,時間的偽造ローカライズを学習するタスクを明示的に設計した,コンテンツ駆動型音声ビジュアルディープフェイクデータセット「localized audio visual deepfake(lav-df)」を提案する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案するデータセットをベンチマークするためのベースライン手法は3dcnnモデルであり, コントラスト, 境界マッチング, フレーム分類損失関数を用いて, 境界認識時限偽造検出 (ba-tfd) と呼ばれる。
広域定量・定性解析により, 時間的偽造位置推定とディープフェイク検出タスクにおいて, 提案手法の強力な性能を示す。
関連論文リスト
- AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [20.524844110786663]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T14:29:29Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Content-Based Detection of Temporal Metadata Manipulation [91.34308819261905]
画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。
中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。
我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。
論文 参考訳(メタデータ) (2021-03-08T13:16:19Z) - Deepfakes Detection with Automatic Face Weighting [21.723416806728668]
コンボリューションニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づいて,映像中の顔から視覚的特徴と時間的特徴を抽出し,操作を正確に検出する手法を提案する。
この手法はDeepfake Detection Challengeデータセットを用いて評価され、他の手法と比較して競合的な結果が得られる。
論文 参考訳(メタデータ) (2020-04-25T00:47:42Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。