論文の概要: Pindrop it! Audio and Visual Deepfake Countermeasures for Robust Detection and Fine Grained-Localization
- arxiv url: http://arxiv.org/abs/2508.08141v1
- Date: Mon, 11 Aug 2025 16:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.20249
- Title: Pindrop it! Audio and Visual Deepfake Countermeasures for Robust Detection and Fine Grained-Localization
- Title(参考訳): ピンドロップ!ロバスト検出・微粒化のための音響・視覚的ディープフェイク対策
- Authors: Nicholas Klein, Hemlata Tak, James Fullwood, Krishna Regmi, Leonidas Spinoulas, Ganesh Sivaraman, Tianxiang Chen, Elie Khoury,
- Abstract要約: 本稿では,ディープフェイク映像分類とローカライゼーションの問題に対する解決策を提案する。
この手法はACM 1M Deepfakes Detection Challengeに提案された。
- 参考スコア(独自算出の注目度): 13.255173598486554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The field of visual and audio generation is burgeoning with new state-of-the-art methods. This rapid proliferation of new techniques underscores the need for robust solutions for detecting synthetic content in videos. In particular, when fine-grained alterations via localized manipulations are performed in visual, audio, or both domains, these subtle modifications add challenges to the detection algorithms. This paper presents solutions for the problems of deepfake video classification and localization. The methods were submitted to the ACM 1M Deepfakes Detection Challenge, achieving the best performance in the temporal localization task and a top four ranking in the classification task for the TestA split of the evaluation dataset.
- Abstract(参考訳): ビジュアルおよびオーディオ生成の分野は、新しい最先端の手法で盛り上がっている。
この急激な技術の普及は、ビデオ中の合成内容を検出する堅牢なソリューションの必要性を浮き彫りにしている。
特に、視覚、オーディオ、または両方の領域で局所的な操作によるきめ細かい修正が行われると、これらの微妙な修正は検出アルゴリズムに課題をもたらす。
本稿では,ディープフェイク映像分類とローカライゼーションの問題に対する解決策を提案する。
この手法をACM 1M Deepfakes Detection Challengeに提案し, 評価データセットのTestA分割の分類タスクにおいて, 時間的局所化タスクで最高の性能と上位4位を達成した。
関連論文リスト
- Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations [4.449835214520726]
ディープフェイク技術は、実際のビデオと合成ビデオのギャップを狭め、プライバシーとセキュリティの深刻な懸念を生じさせている。
この研究は、ディープフェイクビデオにおける局所的な編集を一般化するために明示的に設計された最初の検出手法を示す。
提案手法は,現在の最先端検出法よりも精度が20%向上する。
論文 参考訳(メタデータ) (2025-03-28T03:49:00Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Integrating Audio-Visual Features for Multimodal Deepfake Detection [33.51027054306748]
Deepfakesは、画像やビデオがデジタル修正されたAI生成メディアである。
本稿では,細粒度深度識別とバイナリ分類を組み合わせたディープフェイク検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-05T18:19:56Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。