論文の概要: Do You See What I Say? Generalizable Deepfake Detection based on Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2511.22443v1
- Date: Thu, 27 Nov 2025 13:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.582558
- Title: Do You See What I Say? Generalizable Deepfake Detection based on Visual Speech Recognition
- Title(参考訳): 私が何を言っているか分かるか?視覚音声認識に基づく一般化可能なディープフェイク検出
- Authors: Maheswar Bora, Tashvik Dhamija, Shukesh Reddy, Baptiste Chopin, Pranav Balaji, Abhijit Das, Antitza Dantcheva,
- Abstract要約: ディープフェイク生成は目覚ましい進歩をみせており、非常にリアルな生成画像、ビデオ、オーディオに寄与している。
このような誤用を緩和するためには、堅牢で信頼性の高いディープフェイク検出が緊急に必要となる。
本稿では,事前学習された視覚音声認識(VSR)機能に基づく新しいネットワークFauxNetを提案する。
- 参考スコア(独自算出の注目度): 8.510683305368278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deepfake generation has witnessed remarkable progress, contributing to highly realistic generated images, videos, and audio. While technically intriguing, such progress has raised serious concerns related to the misuse of manipulated media. To mitigate such misuse, robust and reliable deepfake detection is urgently needed. Towards this, we propose a novel network FauxNet, which is based on pre-trained Visual Speech Recognition (VSR) features. By extracting temporal VSR features from videos, we identify and segregate real videos from manipulated ones. The holy grail in this context has to do with zero-shot detection, i.e., generalizable detection, which we focus on in this work. FauxNet consistently outperforms the state-of-the-art in this setting. In addition, FauxNet is able to attribute - distinguish between generation techniques from which the videos stem. Finally, we propose new datasets, referred to as Authentica-Vox and Authentica-HDTF, comprising about 38,000 real and fake videos in total, the latter created with six recent deepfake generation techniques. We provide extensive analysis and results on the Authentica datasets and FaceForensics++, demonstrating the superiority of FauxNet. The Authentica datasets will be made publicly available.
- Abstract(参考訳): ディープフェイク生成は目覚ましい進歩をみせており、非常にリアルな生成画像、ビデオ、オーディオに寄与している。
技術的には興味深いが、このような進歩は、操作されたメディアの誤用に関する深刻な懸念を引き起こしている。
このような誤用を緩和するためには、堅牢で信頼性の高いディープフェイク検出が緊急に必要となる。
そこで本研究では,事前学習型視覚音声認識(VSR)機能に基づく新しいネットワークFauxNetを提案する。
ビデオから時間的VSR特徴を抽出することにより、操作されたビデオから実ビデオを特定し、分離する。
この文脈における聖杯はゼロショット検出、すなわち一般化可能な検出と関係しなくてはならない。
FauxNetはこの設定で最先端を一貫して上回っている。
さらに、FauxNetは、ビデオが生み出す生成テクニックを区別できる。
最後に, Authentica-Vox と Authentica-HDTF と呼ばれる新しいデータセットを提案する。
AuthenticaデータセットとFaceForensics++の広範な分析と結果を提供し、FauxNetの優位性を実証している。
Authenticaデータセットは一般公開される予定だ。
関連論文リスト
- ExDDV: A New Dataset for Explainable Deepfake Detection in Video [23.169975307069066]
我々はExplainable Deepfake Detection in Videoの最初のデータセットとベンチマークであるExDDVを紹介した。
我々は、ExDDV上で様々な視覚言語モデルを評価し、様々な微調整および文脈内学習戦略を用いて実験を行う。
以上の結果から,ディープフェイクビデオのための堅牢な説明可能なモデルを開発するためには,テキストとクリックの監督が必要であることが示唆された。
論文 参考訳(メタデータ) (2025-03-18T16:55:07Z) - Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes [3.6308756891251392]
生成AIの一種であるリアルタイムディープフェイク(Real-time Deepfake)は、ビデオ内の既存のコンテンツ(例えば、顔を別のものと交換する)を「生成する」ことができる。
金融詐欺や政治的誤報など、悪意ある目的のためにディープフェイクビデオを作るのに誤用されている。
本研究では,物理干渉に適応できないディープフェイクモデルを利用した新しいリアルタイムディープフェイク検出手法であるSFakeを提案する。
論文 参考訳(メタデータ) (2024-09-17T04:58:30Z) - GenConViT: Deepfake Video Detection Using Generative Convolutional Vision Transformer [10.135975246717113]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvationalNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - What's wrong with this video? Comparing Explainers for Deepfake
Detection [13.089182408360221]
Deepfakesは、個人の顔が別の顔に置き換えられたコンピュータ操作されたビデオです。
本研究では,実映像と偽動画のラベル付けを説明するために,ホワイトボックス,ブラックボックス,モデル固有の手法を開発し,拡張し,比較する。
特に,shap,gradcam,self-attentionモデルを用いて,高効率ネットに基づく最先端検出器の予測を説明する。
論文 参考訳(メタデータ) (2021-05-12T18:44:39Z) - WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection [82.42495493102805]
我々は,インターネットから完全に収集された707のディープフェイクビデオから抽出された7,314の顔シーケンスからなる新しいデータセットWildDeepfakeを紹介した。
既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。
論文 参考訳(メタデータ) (2021-01-05T11:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。