Fugu-MT 論文翻訳(概要): Integrating Audio-Visual Features for Multimodal Deepfake Detection

論文の概要: Integrating Audio-Visual Features for Multimodal Deepfake Detection

arxiv url: http://arxiv.org/abs/2310.03827v1
Date: Thu, 5 Oct 2023 18:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 18:58:43.670497
Title: Integrating Audio-Visual Features for Multimodal Deepfake Detection
Title（参考訳）: マルチモーダルディープフェイク検出のための視聴覚機能の統合
Authors: Sneha Muppalla, Shan Jia, Siwei Lyu
Abstract要約: Deepfakesは、画像やビデオがデジタル修正されたAI生成メディアである。本稿では,細粒度深度識別とバイナリ分類を組み合わせたディープフェイク検出手法を提案する。
参考スコア（独自算出の注目度）: 33.51027054306748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deepfakes are AI-generated media in which an image or video has been digitally modified. The advancements made in deepfake technology have led to privacy and security issues. Most deepfake detection techniques rely on the detection of a single modality. Existing methods for audio-visual detection do not always surpass that of the analysis based on single modalities. Therefore, this paper proposes an audio-visual-based method for deepfake detection, which integrates fine-grained deepfake identification with binary classification. We categorize the samples into four types by combining labels specific to each single modality. This method enhances the detection under intra-domain and cross-domain testing.
Abstract（参考訳）: Deepfakesは、画像やビデオがデジタル修正されたAI生成メディアである。ディープフェイク技術の進歩は、プライバシとセキュリティの問題につながった。ほとんどのディープフェイク検出技術は単一モードの検出に依存している。既存の視聴覚検出法は、単一のモダリティに基づく解析のそれを超えるとは限らない。そこで本稿では,ディープフェイク識別とバイナリ分類を融合した,ディープフェイク検出のための音声ビジュアルベース手法を提案する。サンプルは,各単一モダリティに特有のラベルを組み合わせることで,4つのタイプに分類する。この方法は、ドメイン内およびクロスドメインテストにおける検出を強化する。

関連論文リスト

Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook [101.30779332427217]
本研究は,近年の現場開発を含むディープフェイク発生・検出技術について調査する。偽コンテンツの変更や生成に使用する手順に従って,様々な種類のディープフェイクを識別する。我々は,分布外コンテンツに基づくディープフェイク検出のための新しいマルチモーダル・ベンチマークを開発した。
論文参考訳（メタデータ） (2024-11-29T08:29:25Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection [17.285669984798975]
本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。新たな世代のアルゴリズムが絶えず出現しており、検出方法の開発中にこれらのアルゴリズムは遭遇しない。表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。
論文参考訳（メタデータ） (2024-06-20T10:33:15Z)
DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか? 我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文参考訳（メタデータ） (2024-06-19T12:35:02Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Facial Forgery-based Deepfake Detection using Fine-Grained Features [7.378937711027777]
ディープフェイクによる顔の偽造は、大きなセキュリティリスクを引き起こし、深刻な社会的懸念を引き起こしている。我々は,詳細な分類問題としてディープフェイク検出を定式化し,それに対する新たなきめ細かな解を提案する。本手法は, 背景雑音を効果的に抑制し, 様々なスケールの識別特徴を学習することにより, 微妙で一般化可能な特徴を学習し, 深度検出を行う。
論文参考訳（メタデータ） (2023-10-10T21:30:05Z)
MIS-AVoiDD: Modality Invariant and Specific Representation for Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文参考訳（メタデータ） (2023-10-03T17:43:24Z)
DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文参考訳（メタデータ） (2023-09-12T18:37:05Z)
Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文参考訳（メタデータ） (2022-04-06T20:51:40Z)
Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。未探索の音声-顔のマッチングビューからディープフェイク検出を行う。我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文参考訳（メタデータ） (2022-03-04T09:08:50Z)
Multi-attentional Deepfake Detection [79.80308897734491]
ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。新たなマルチアテンテーショナルディープフェイク検出ネットワークを提案する。具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。
論文参考訳（メタデータ） (2021-03-03T13:56:14Z)
Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文参考訳（メタデータ） (2020-03-14T22:07:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。