論文の概要: ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2507.18031v1
- Date: Thu, 24 Jul 2025 02:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.833003
- Title: ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks
- Title(参考訳): ViGText:視覚言語モデル記述とグラフニューラルネットワークによるディープフェイク画像検出
- Authors: Ahmad ALBarqawi, Mahmoud Nazzal, Issa Khalil, Abdallah Khreishah, NhatHai Phan,
- Abstract要約: 本稿では、グラフベースのフレームワーク内で画像と説明を統合し、ディープフェイク検出を改善する新しいアプローチであるViGTextを紹介する。
ViGTextは、イメージをパッチに体系的に分割し、画像とテキストグラフを構築し、グラフニューラルネットワーク(GNN)を使用して分析してディープフェイクを識別する。
広範囲な実験により、ViGTextは、ユーザがカスタマイズしたディープフェイクを検出すると、一般化と顕著なパフォーマンス向上を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 3.999976812956099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of deepfake technology, which produces realistic but fraudulent digital content, threatens the authenticity of media. Traditional deepfake detection approaches often struggle with sophisticated, customized deepfakes, especially in terms of generalization and robustness against malicious attacks. This paper introduces ViGText, a novel approach that integrates images with Vision Large Language Model (VLLM) Text explanations within a Graph-based framework to improve deepfake detection. The novelty of ViGText lies in its integration of detailed explanations with visual data, as it provides a more context-aware analysis than captions, which often lack specificity and fail to reveal subtle inconsistencies. ViGText systematically divides images into patches, constructs image and text graphs, and integrates them for analysis using Graph Neural Networks (GNNs) to identify deepfakes. Through the use of multi-level feature extraction across spatial and frequency domains, ViGText captures details that enhance its robustness and accuracy to detect sophisticated deepfakes. Extensive experiments demonstrate that ViGText significantly enhances generalization and achieves a notable performance boost when it detects user-customized deepfakes. Specifically, average F1 scores rise from 72.45% to 98.32% under generalization evaluation, and reflects the model's superior ability to generalize to unseen, fine-tuned variations of stable diffusion models. As for robustness, ViGText achieves an increase of 11.1% in recall compared to other deepfake detection approaches. When facing targeted attacks that exploit its graph-based architecture, ViGText limits classification performance degradation to less than 4%. ViGText uses detailed visual and textual analysis to set a new standard for detecting deepfakes, helping ensure media authenticity and information integrity.
- Abstract(参考訳): リアルだが不正なデジタルコンテンツを制作するディープフェイク技術の急速な普及は、メディアの信頼性を脅かす。
従来のディープフェイク検出アプローチは、特に悪意のある攻撃に対する一般化と堅牢性の観点から、洗練されたカスタマイズされたディープフェイクに苦しむことが多い。
本稿では,視覚大言語モデル(VLLM)と画像を統合する新しいアプローチであるViGTextを紹介する。
ViGTextの新規性は、視覚データとの詳細な説明の統合にある。
ViGTextは、イメージをパッチに体系的に分割し、画像とテキストグラフを構築し、グラフニューラルネットワーク(GNN)を使用して分析してディープフェイクを識別する。
ViGTextは、空間領域と周波数領域をまたいだ多レベル特徴抽出によって、その堅牢性と精度を高める詳細をキャプチャして、洗練されたディープフェイクを検出する。
大規模な実験により、ViGTextは一般化を著しく向上し、ユーザがカスタマイズしたディープフェイクを検出すると、顕著なパフォーマンス向上を実現している。
具体的には、平均的なF1スコアは、一般化評価の下で72.45%から98.32%に上昇し、安定拡散モデルの目に見えない微調整のバリエーションに一般化する優れた能力を反映している。
堅牢性に関しては、ViGTextは他のディープフェイク検出手法と比較して11.1%のリコールを実現している。
グラフベースのアーキテクチャを利用するターゲット攻撃に直面した場合、ViGTextは分類性能の低下を4%未満に制限する。
ViGTextは、詳細なビジュアルおよびテキスト分析を使用して、ディープフェイクを検出するための新しい標準を設定し、メディアの信頼性と情報の整合性を保証する。
関連論文リスト
- DGP: A Dual-Granularity Prompting Framework for Fraud Detection with Graph-Enhanced LLMs [55.13817504780764]
実世界の不正検出アプリケーションは、しばしばテキストデータに富んだノード特徴とグラフ構造情報を共同で活用するグラフ学習技術の恩恵を受ける。
グラフ強化LSMは、グラフ情報をプロンプトに変換する、有望なグラフ学習アプローチとして登場します。
目的ノードの細粒度テキストの詳細を保存し,情報過負荷を軽減するDGPを提案する。
論文 参考訳(メタデータ) (2025-07-29T10:10:47Z) - AuthGuard: Generalizable Deepfake Detection via Language Guidance [39.18916434250689]
既存のディープフェイク検出技術は、進化し続ける新しい、目に見えない偽造手法に追いつくのに苦労している。
言語指導を取り入れることで、ディープフェイク検出の一般化を改善することができる。
我々は、識別的分類と画像テキストのコントラスト学習を組み合わせることで、専門的なディープフェイク視覚エンコーダを訓練する。
論文 参考訳(メタデータ) (2025-06-04T22:50:07Z) - Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - Intruding with Words: Towards Understanding Graph Injection Attacks at the Text Level [21.003091265006102]
グラフニューラルネットワーク(GNN)は、様々なアプリケーションにまたがるが、敵の攻撃に弱いままである。
本稿では,テキストレベルでのグラフインジェクションアタック(GIA)の探索の先駆者となる。
埋め込みレベルで見過ごされた要素であるテキストの解釈可能性(英語版)が、攻撃強度において重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-05-26T02:12:02Z) - Benchmarking Robustness of Text-Image Composed Retrieval [46.98557472744255]
テキスト画像合成検索は、合成されたクエリを通してターゲット画像を取得することを目的としている。
近年,情報に富む画像と簡潔な言語の両方を活用する能力に注目が集まっている。
しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。
論文 参考訳(メタデータ) (2023-11-24T20:16:38Z) - AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors [24.78672820633581]
深層生成モデルは、偽情報や著作権侵害に対する懸念を高めながら、驚くほど偽のイメージを作成することができる。
実画像と偽画像とを区別するためにディープフェイク検出技術が開発された。
本稿では,視覚言語モデルとアクシデントチューニング技術を用いて,Antifake Promptと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T14:23:45Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic
Textual Guidance [70.08635216710967]
X-Meshはテキスト駆動型3Dスタイリングフレームワークで、新しいテキスト誘導動的注意モジュールを備えている。
我々は、新しい標準テキストメシュベンチマーク、MIT-30と2つの自動メトリクスを導入し、将来の研究が公正で客観的な比較を達成できるようにする。
論文 参考訳(メタデータ) (2023-03-28T06:45:31Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。