論文の概要: Common Sense Reasoning for Deepfake Detection
- arxiv url: http://arxiv.org/abs/2402.00126v2
- Date: Thu, 18 Jul 2024 07:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:41:25.881382
- Title: Common Sense Reasoning for Deepfake Detection
- Title(参考訳): ディープフェイク検出のための常識推論
- Authors: Yue Zhang, Ben Colman, Xiao Guo, Ali Shahriyari, Gaurav Bharaj,
- Abstract要約: 最先端のディープフェイク検出アプローチは、ニューラルネットワークを介して抽出された画像ベースの機能に依存している。
我々は,Deepfake Detection VQA (DD-VQA) タスクとしてディープフェイク検出を行い,人間の直感をモデル化した。
我々は、新しい注釈付きデータセットを導入し、DD-VQAタスクのためのビジョン・アンド・ランゲージ・トランスフォーマーベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.502008402754658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deepfake detection approaches rely on image-based features extracted via neural networks. While these approaches trained in a supervised manner extract likely fake features, they may fall short in representing unnatural `non-physical' semantic facial attributes -- blurry hairlines, double eyebrows, rigid eye pupils, or unnatural skin shading. However, such facial attributes are easily perceived by humans and used to discern the authenticity of an image based on human common sense. Furthermore, image-based feature extraction methods that provide visual explanations via saliency maps can be hard to interpret for humans. To address these challenges, we frame deepfake detection as a Deepfake Detection VQA (DD-VQA) task and model human intuition by providing textual explanations that describe common sense reasons for labeling an image as real or fake. We introduce a new annotated dataset and propose a Vision and Language Transformer-based framework for the DD-VQA task. We also incorporate text and image-aware feature alignment formulation to enhance multi-modal representation learning. As a result, we improve upon existing deepfake detection models by integrating our learned vision representations, which reason over common sense knowledge from the DD-VQA task. We provide extensive empirical results demonstrating that our method enhances detection performance, generalization ability, and language-based interpretability in the deepfake detection task.
- Abstract(参考訳): 最先端のディープフェイク検出アプローチは、ニューラルネットワークを介して抽出された画像ベースの機能に依存している。
監督された方法で訓練されたこれらのアプローチは、おそらく偽の特徴を抽出するが、不自然な「非物理的な」意味的な顔の特徴、ぼやけた毛髪、双眼、堅い瞳孔、または不自然な皮膚の陰を表現できない可能性がある。
しかし、このような顔の特徴は人間によって容易に認識され、人間の常識に基づいて画像の正当性を識別するために用いられる。
さらに,視覚的説明を提供する画像に基づく特徴抽出手法は,人に対する解釈が困難である。
これらの課題に対処するため,ディープフェイク検出をDeepfake Detection VQA(DD-VQA)タスクとして用い,画像のラベル付けに関する常識的理由を記述したテキストによる説明を提供することで人間の直感をモデル化する。
我々は、新しい注釈付きデータセットを導入し、DD-VQAタスクのためのビジョン・アンド・ランゲージ・トランスフォーマーベースのフレームワークを提案する。
また、マルチモーダル表現学習を強化するために、テキストと画像認識機能アライメントの定式化も取り入れた。
その結果、DD-VQAタスクからの常識的知識を前提とした学習された視覚表現を統合することにより、既存のディープフェイク検出モデルを改善した。
提案手法は,ディープフェイク検出タスクにおける検出性能,一般化能力,言語に基づく解釈性を向上させることを示す。
関連論文リスト
- EEG-Features for Generalized Deepfake Detection [3.7117930046173173]
本稿では,脳波を用いたディープフェイク検出のための新しい手法について検討する。
予備的な結果は、人間のニューラル処理信号がDeepfake検出フレームワークにうまく統合できることを示唆している。
我々の研究は、デジタルリアリズムが人間の認知システムにどのように埋め込まれているかを理解するための次のステップを提供する。
論文 参考訳(メタデータ) (2024-05-14T12:06:44Z) - Semantic Contextualization of Face Forgery: A New Definition, Dataset, and Detection Method [77.65459419417533]
我々は,顔フォージェリを意味的文脈に配置し,意味的顔属性を変更する計算手法が顔フォージェリの源であることを定義した。
階層的なグラフで整理されたラベルの集合に各画像が関連付けられている大規模な顔偽画像データセットを構築した。
本稿では,ラベル関係を捕捉し,その優先課題を優先するセマンティクス指向の顔偽造検出手法を提案する。
論文 参考訳(メタデータ) (2024-05-14T10:24:19Z) - FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models [62.66610648697744]
我々は人間の知覚に関する生成的視覚的偽造の分類を導入し、人間の自然言語における偽造記述を収集する。
FakeBenchは、検出、推論、解釈、きめ細かい偽造分析の4つの評価基準でLMMを調べている。
本研究は,偽画像検出領域における透明性へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2024-04-20T07:28:55Z) - Individualized Deepfake Detection Exploiting Traces Due to Double
Neural-Network Operations [32.33331065408444]
既存のディープフェイク検出器は、画像が特定かつ識別可能な個人と関連付けられている場合、この検出タスクに最適化されない。
本研究では,個々の人物の顔画像のディープフェイク検出に焦点を当てた。
ニューラルネットワークのイデオロシティ特性を利用して検出性能を向上できることを実証する。
論文 参考訳(メタデータ) (2023-12-13T10:21:00Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors [24.78672820633581]
深層生成モデルは、偽情報や著作権侵害に対する懸念を高めながら、驚くほど偽のイメージを作成することができる。
実画像と偽画像とを区別するためにディープフェイク検出技術が開発された。
本稿では,視覚言語モデルとアクシデントチューニング技術を用いて,Antifake Promptと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T14:23:45Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - Detect and Locate: A Face Anti-Manipulation Approach with Semantic and
Noise-level Supervision [67.73180660609844]
本稿では,画像中の偽造顔を効率的に検出する,概念的にシンプルだが効果的な方法を提案する。
提案手法は,画像に関する意味の高い意味情報を提供するセグメンテーションマップに依存する。
提案モデルでは,最先端検出精度と顕著なローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2021-07-13T02:59:31Z) - Fighting Deepfake by Exposing the Convolutional Traces on Images [0.0]
FACEAPPのようなモバイルアプリは、最も高度なGAN(Generative Adversarial Networks)を使用して、人間の顔写真に極端な変換を生成する。
この種のメディアオブジェクトはDeepfakeという名前を取って、マルチメディアの法医学分野における新たな課題であるDeepfake検出課題を提起した。
本稿では,画像からディープフェイク指紋を抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-08-07T08:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。