論文の概要: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2204.06228v1
- Date: Wed, 13 Apr 2022 08:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 21:15:28.180907
- Title: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization
- Title(参考訳): 本当にそうなの?
コンテンツ駆動型オーディオ・ビジュアルディープフェイクデータセットと時間的偽造ローカライズのためのマルチモーダル法
- Authors: Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
- Abstract要約: ローカルオーディオビジュアルディープフェイク(LAV-DF)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
LAV-DFは、時間的フォージェリーローカライゼーションを学習するタスクのために明示的に設計されている。
具体的には、映像全体の感情極性を変えるために、戦略的な場所でコンテンツ駆動型音声視覚操作を行う。
- 参考スコア(独自算出の注目度): 19.490174583625862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to its high societal impact, deepfake detection is getting active
attention in the computer vision community. Most deepfake detection methods
rely on identity, facial attribute and adversarial perturbation based
spatio-temporal modifications at the whole video or random locations, while
keeping the meaning of the content intact. However, a sophisticated deepfake
may contain only a small segment of video/audio manipulation, through which the
meaning of the content can be, for example, completely inverted from sentiment
perspective. To address this gap, we introduce a content driven audio-visual
deepfake dataset, termed as Localized Audio Visual DeepFake (LAV-DF),
explicitly designed for the task of learning temporal forgery localization.
Specifically, the content driven audio-visual manipulations are performed at
strategic locations in order to change the sentiment polarity of the whole
video. Our baseline method for benchmarking the proposed dataset is a 3DCNN
model, termed as Boundary Aware Temporal Forgery Detection (BA-TFD), which is
guided via contrastive, boundary matching and frame classification loss
functions. Our extensive quantitative analysis demonstrates the strong
performance of the proposed method for both task of temporal forgery
localization and deepfake detection.
- Abstract(参考訳): 社会的影響が大きいため、ディープフェイク検出はコンピュータビジョンコミュニティで活発に注目を集めている。
多くのディープフェイク検出方法は、ビデオ全体やランダムな場所における個人性、顔の特徴、対向的摂動に基づく時空間的変化に依存し、コンテンツの意味はそのまま維持する。
しかし、洗練されたディープフェイクは、ビデオ/オーディオ操作のごく一部しか含んでおらず、コンテンツの意味を例えば、感情の観点から完全に反転させることができる。
このギャップに対処するために、我々は、時間的フォージェリローカライゼーションの学習のために明示的に設計された、Localized Audio Visual DeepFake (LAV-DF)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、ビデオ全体の感情極性を変えるために、戦略的場所でコンテンツ駆動の音声・視覚操作を行う。
提案したデータセットをベンチマークするベースライン手法は、3DCNNモデルであり、このモデルはBundary Aware Temporal Forgery Detection (BA-TFD)と呼ばれ、コントラスト、バウンダリマッチング、フレーム分類損失関数を通じてガイドされる。
広範に定量的に分析した結果,時間的偽造位置推定とディープフェイク検出の両課題において,提案手法の強い性能を示した。
関連論文リスト
- AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [20.524844110786663]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T14:29:29Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Content-Based Detection of Temporal Metadata Manipulation [91.34308819261905]
画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。
中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。
我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。
論文 参考訳(メタデータ) (2021-03-08T13:16:19Z) - Deepfakes Detection with Automatic Face Weighting [21.723416806728668]
コンボリューションニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づいて,映像中の顔から視覚的特徴と時間的特徴を抽出し,操作を正確に検出する手法を提案する。
この手法はDeepfake Detection Challengeデータセットを用いて評価され、他の手法と比較して競合的な結果が得られる。
論文 参考訳(メタデータ) (2020-04-25T00:47:42Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。