論文の概要: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2204.06228v2
- Date: Thu, 4 May 2023 00:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 17:51:21.814773
- Title: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization
- Title(参考訳): 本当にそうなの?
コンテンツ駆動型オーディオ・ビジュアルディープフェイクデータセットと時間的偽造ローカライズのためのマルチモーダル法
- Authors: Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
- Abstract要約: LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
- 参考スコア(独自算出の注目度): 19.490174583625862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to its high societal impact, deepfake detection is getting active
attention in the computer vision community. Most deepfake detection methods
rely on identity, facial attributes, and adversarial perturbation-based
spatio-temporal modifications at the whole video or random locations while
keeping the meaning of the content intact. However, a sophisticated deepfake
may contain only a small segment of video/audio manipulation, through which the
meaning of the content can be, for example, completely inverted from a
sentiment perspective. We introduce a content-driven audio-visual deepfake
dataset, termed Localized Audio Visual DeepFake (LAV-DF), explicitly designed
for the task of learning temporal forgery localization. Specifically, the
content-driven audio-visual manipulations are performed strategically to change
the sentiment polarity of the whole video. Our baseline method for benchmarking
the proposed dataset is a 3DCNN model, termed as Boundary Aware Temporal
Forgery Detection (BA-TFD), which is guided via contrastive, boundary matching,
and frame classification loss functions. Our extensive quantitative and
qualitative analysis demonstrates the proposed method's strong performance for
temporal forgery localization and deepfake detection tasks.
- Abstract(参考訳): 社会的影響が大きいため、ディープフェイク検出はコンピュータビジョンコミュニティで活発に注目を集めている。
ほとんどのディープフェイク検出方法は、コンテンツの意味をそのまま保ちながら、ビデオ全体やランダムな場所におけるアイデンティティ、顔の特徴、対向的摂動に基づく時空間的変化に依存している。
しかし、洗練されたディープフェイクは、コンテンツの意味が、例えば、感情の観点から完全に逆転できる、ビデオ/オーディオ操作の小さな部分のみを含むことができる。
本稿では,時間的偽造ローカライズを学習するタスクを明示的に設計した,コンテンツ駆動型音声ビジュアルディープフェイクデータセット「localized audio visual deepfake(lav-df)」を提案する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案するデータセットをベンチマークするためのベースライン手法は3dcnnモデルであり, コントラスト, 境界マッチング, フレーム分類損失関数を用いて, 境界認識時限偽造検出 (ba-tfd) と呼ばれる。
広域定量・定性解析により, 時間的偽造位置推定とディープフェイク検出タスクにおいて, 提案手法の強力な性能を示す。
関連論文リスト
- DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。
実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。
ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T14:29:29Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Content-Based Detection of Temporal Metadata Manipulation [91.34308819261905]
画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。
中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。
我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。
論文 参考訳(メタデータ) (2021-03-08T13:16:19Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。