論文の概要: Passive Deepfake Detection Across Multi-modalities: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2411.17911v1
- Date: Tue, 26 Nov 2024 22:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:23.474389
- Title: Passive Deepfake Detection Across Multi-modalities: A Comprehensive Survey
- Title(参考訳): 多商品間のパッシブディープフェイク検出:総合調査
- Authors: Hong-Hanh Nguyen-Le, Van-Tuan Tran, Dinh-Thuc Nguyen, Nhien-An Le-Khac,
- Abstract要約: ディープフェイク(DF)は、個人の偽装、誤情報拡散、アーティストのスタイルの模倣など、悪意ある目的に利用されてきた。
この調査では、画像、ビデオ、オーディオ、マルチモーダルドメインなど、複数のモダリティにまたがる受動的アプローチについて調査する。
- 参考スコア(独自算出の注目度): 1.7811840395202345
- License:
- Abstract: In recent years, deepfakes (DFs) have been utilized for malicious purposes, such as individual impersonation, misinformation spreading, and artists' style imitation, raising questions about ethical and security concerns. However, existing surveys have focused on accuracy performance of passive DF detection approaches for single modalities, such as image, video or audio. This comprehensive survey explores passive approaches across multiple modalities, including image, video, audio, and multi-modal domains, and extend our discussion beyond detection accuracy, including generalization, robustness, attribution, and interpretability. Additionally, we discuss threat models for passive approaches, including potential adversarial strategies and different levels of adversary knowledge and capabilities. We also highlights current challenges in DF detection, including the lack of generalization across different generative models, the need for comprehensive trustworthiness evaluation, and the limitations of existing multi-modal approaches. Finally, we propose future research directions that address these unexplored and emerging issues in the field of passive DF detection, such as adaptive learning, dynamic benchmark, holistic trustworthiness evaluation, and multi-modal detectors for talking-face video generation.
- Abstract(参考訳): 近年、ディープフェイク(DF)は、個人の偽造、誤情報拡散、アーティストのスタイルの模倣といった悪質な目的に利用され、倫理やセキュリティに関する疑問が提起されている。
しかし、既存の調査では、画像、ビデオ、オーディオなどの単一モードに対する受動DF検出手法の精度向上に重点を置いている。
本稿では、画像、ビデオ、オーディオ、マルチモーダルドメインを含む複数のモードにまたがる受動的アプローチを調査し、一般化、ロバスト性、帰属性、解釈可能性など、検出精度以上の議論を拡大する。
また,受動的アプローチの脅威モデルについても論じる。
また、DF検出における現在の課題として、異なる生成モデル間の一般化の欠如、包括的信頼性評価の必要性、既存のマルチモーダルアプローチの限界などを挙げる。
最後に, 適応学習, 動的ベンチマーク, 総合的信頼性評価, 対面ビデオ生成のためのマルチモーダル検出など, 受動的DF検出の分野における, 未探索および新たな課題に対処する今後の研究方向を提案する。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant [59.2438504610849]
FFAA: Face Forgery Analysis Assistant(MLLM)とMIDS(Multi-Awer Intelligent Decision System)について紹介する。
提案手法は,ユーザフレンドリで説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-19T15:15:20Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Evolving from Single-modal to Multi-modal Facial Deepfake Detection: A Survey [40.11614155244292]
AI生成メディアがより現実的になるにつれて、誤情報を拡散したり、身元確認詐欺を犯したりする危険性が高まっている。
この研究は、従来の単一モダリティ手法から、音声・視覚・テキスト・視覚シナリオを扱う高度なマルチモーダルアプローチへの進化を辿る。
私たちの知る限りでは、この種の調査はこれが初めてである。
論文 参考訳(メタデータ) (2024-06-11T05:48:04Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Video Anomaly Detection in 10 Years: A Survey and Outlook [10.143205531474907]
ビデオ異常検出(VAD)は、監視、医療、環境監視といった様々な領域において非常に重要である。
この調査では、従来の教師付きトレーニングパラダイムを超えて、弱教師付き、自己監督型、教師なしのアプローチを包含する、ディープラーニングベースのVADを調査している。
論文 参考訳(メタデータ) (2024-05-29T17:56:31Z) - Audio Anti-Spoofing Detection: A Survey [7.3348524333159]
ディープラーニングは、Deepfakeとして知られるマルチメディアフェイクコンテンツを操作または作成できる洗練されたアルゴリズムを生み出した。
防汚対策の開発を促進するため, 防汚対策の音響的課題が編成されている。
本稿では,アルゴリズムアーキテクチャ,最適化手法,アプリケーション一般化性,評価指標,パフォーマンス比較,利用可能なデータセット,オープンソース可用性など,検出パイプライン内のすべてのコンポーネントについて,包括的なレビューを行う。
論文 参考訳(メタデータ) (2024-04-22T06:52:12Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - A Comprehensive Study on the Robustness of Image Classification and
Object Detection in Remote Sensing: Surveying and Benchmarking [17.012502610423006]
ディープニューラルネットワーク(DNN)は、リモートセンシング(RS)画像の解釈に広く応用されている。
従来の研究では、DNNは様々な種類のノイズ、特に敵対的なノイズに弱いことが示されている。
本研究は,RS課題における自然的頑健性と対角的頑健性の両方を包括的に検討した初めての事例である。
論文 参考訳(メタデータ) (2023-06-21T08:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。