Fugu-MT 論文翻訳(概要): Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization

論文の概要: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization

arxiv url: http://arxiv.org/abs/2204.06228v2
Date: Thu, 4 May 2023 00:41:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 17:51:21.814773
Title: Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization
Title（参考訳）: 本当にそうなの? コンテンツ駆動型オーディオ・ビジュアルディープフェイクデータセットと時間的偽造ローカライズのためのマルチモーダル法
Authors: Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
Abstract要約: LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
参考スコア（独自算出の注目度）: 19.490174583625862
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to its high societal impact, deepfake detection is getting active attention in the computer vision community. Most deepfake detection methods rely on identity, facial attributes, and adversarial perturbation-based spatio-temporal modifications at the whole video or random locations while keeping the meaning of the content intact. However, a sophisticated deepfake may contain only a small segment of video/audio manipulation, through which the meaning of the content can be, for example, completely inverted from a sentiment perspective. We introduce a content-driven audio-visual deepfake dataset, termed Localized Audio Visual DeepFake (LAV-DF), explicitly designed for the task of learning temporal forgery localization. Specifically, the content-driven audio-visual manipulations are performed strategically to change the sentiment polarity of the whole video. Our baseline method for benchmarking the proposed dataset is a 3DCNN model, termed as Boundary Aware Temporal Forgery Detection (BA-TFD), which is guided via contrastive, boundary matching, and frame classification loss functions. Our extensive quantitative and qualitative analysis demonstrates the proposed method's strong performance for temporal forgery localization and deepfake detection tasks.
Abstract（参考訳）: 社会的影響が大きいため、ディープフェイク検出はコンピュータビジョンコミュニティで活発に注目を集めている。ほとんどのディープフェイク検出方法は、コンテンツの意味をそのまま保ちながら、ビデオ全体やランダムな場所におけるアイデンティティ、顔の特徴、対向的摂動に基づく時空間的変化に依存している。しかし、洗練されたディープフェイクは、コンテンツの意味が、例えば、感情の観点から完全に逆転できる、ビデオ/オーディオ操作の小さな部分のみを含むことができる。本稿では,時間的偽造ローカライズを学習するタスクを明示的に設計した,コンテンツ駆動型音声ビジュアルディープフェイクデータセット「localized audio visual deepfake(lav-df)」を提案する。具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。提案するデータセットをベンチマークするためのベースライン手法は3dcnnモデルであり, コントラスト, 境界マッチング, フレーム分類損失関数を用いて, 境界認識時限偽造検出 (ba-tfd) と呼ばれる。広域定量・定性解析により, 時間的偽造位置推定とディープフェイク検出タスクにおいて, 提案手法の強力な性能を示す。

関連論文リスト

Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文参考訳（メタデータ） (2025-11-11T09:33:39Z)
Pindrop it! Audio and Visual Deepfake Countermeasures for Robust Detection and Fine Grained-Localization [13.437341095443907]
本稿では,ディープフェイク映像分類とローカライゼーションの問題に対する解決策を提案する。この手法はACM 1M Deepfakes Detection Challengeに提案された。
論文参考訳（メタデータ） (2025-08-11T16:14:17Z)
Frame-level Temporal Difference Learning for Partial Deepfake Speech Detection [16.923285534924116]
不自然な時間変動を識別する部分的な深度検出を再定義する時間差注意モジュール(TDAM)を提案する。二重レベルの階層的差分表現は、微細なスケールと粗いスケールの両方で時間的不規則性を捕捉する一方、適応的な平均プーリングは、情報損失を最小限に抑えるために、可変長入力における必須パターンを保存する。当社のTDAM-AvgPoolモデルは,PartialSpoofデータセットで0.59%,HADデータセットで0.03%,最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-07-20T19:46:23Z)
Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文参考訳（メタデータ） (2025-06-10T06:40:43Z)
DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文参考訳（メタデータ） (2024-11-15T13:47:33Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文参考訳（メタデータ） (2023-11-26T14:17:51Z)
An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文参考訳（メタデータ） (2023-09-06T14:29:29Z)
NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。 NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文参考訳（メタデータ） (2023-06-12T06:06:05Z)
Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。 LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文参考訳（メタデータ） (2023-05-03T08:48:45Z)
Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文参考訳（メタデータ） (2022-04-06T20:51:40Z)
Content-Based Detection of Temporal Metadata Manipulation [91.34308819261905]
画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。
論文参考訳（メタデータ） (2021-03-08T13:16:19Z)
Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文参考訳（メタデータ） (2020-03-14T22:07:26Z)
SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文参考訳（メタデータ） (2020-01-24T16:53:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。