論文の概要: Explainable Detection of AI-Generated Images with Artifact Localization Using Faster-Than-Lies and Vision-Language Models for Edge Devices
- arxiv url: http://arxiv.org/abs/2510.23775v1
- Date: Mon, 27 Oct 2025 19:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.424352
- Title: Explainable Detection of AI-Generated Images with Artifact Localization Using Faster-Than-Lies and Vision-Language Models for Edge Devices
- Title(参考訳): エッジデバイスにおける高速タンリーとビジョンランゲージモデルを用いたAI生成画像のアーティファクトローカライゼーションによる説明可能な検出
- Authors: Aryan Mathur, Asaduddin Ahmed, Pushti Amit Vasoya, Simeon Kandan Sonar, Yasir Z, Madesh Kuppusamy,
- Abstract要約: 本稿では、軽量な畳み込み分類器("Faster-Than-Lies")と視覚言語モデル(Qwen2-VL-7B)を組み合わせた説明可能な画像の真正性検出システムを提案する。
我々のモデルは、敵の摂動を付加した拡張CiFAKEデータセットの96.5%の精度を実現し、ローカルデバイスやエッジデバイスへのデプロイを可能にした。
この研究は、低解像度画像における解釈可能な真正性検出のための視覚的推論と言語学的推論を組み合わせる可能性を強調し、法医学、産業検査、ソーシャルメディアのモデレーションにおける潜在的なクロスドメイン応用を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing realism of AI-generated imagery poses challenges for verifying visual authenticity. We present an explainable image authenticity detection system that combines a lightweight convolutional classifier ("Faster-Than-Lies") with a Vision-Language Model (Qwen2-VL-7B) to classify, localize, and explain artifacts in 32x32 images. Our model achieves 96.5% accuracy on the extended CiFAKE dataset augmented with adversarial perturbations and maintains an inference time of 175ms on 8-core CPUs, enabling deployment on local or edge devices. Using autoencoder-based reconstruction error maps, we generate artifact localization heatmaps, which enhance interpretability for both humans and the VLM. We further categorize 70 visual artifact types into eight semantic groups and demonstrate explainable text generation for each detected anomaly. This work highlights the feasibility of combining visual and linguistic reasoning for interpretable authenticity detection in low-resolution imagery and outlines potential cross-domain applications in forensics, industrial inspection, and social media moderation.
- Abstract(参考訳): AI生成画像のリアリズムの増大は、視覚的正当性を検証する上での課題を提起する。
本稿では、軽量な畳み込み分類器("Faster-Than-Lies")と視覚言語モデル(Qwen2-VL-7B)を組み合わせて、32×32画像のアーティファクトの分類、ローカライズ、説明を行う。
本モデルでは,CiFAKE拡張データセットの96.5%の精度を実現し,8コアCPU上で175msの予測時間を維持し,ローカルデバイスやエッジデバイスへの展開を可能にする。
自己エンコーダを用いた再構成誤りマップを用いて,人工的局所化ヒートマップを生成し,人間とVLMの両方の解釈性を向上させる。
さらに,70種類の視覚的アーティファクトを8つの意味群に分類し,検出された各異常に対して説明可能なテキスト生成を示す。
この研究は、低解像度画像における解釈可能な真正性検出のための視覚的推論と言語学的推論を組み合わせる可能性を強調し、法医学、産業検査、ソーシャルメディアのモデレーションにおける潜在的なクロスドメイン応用を概説する。
関連論文リスト
- Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Zoom-In to Sort AI-Generated Images Out [34.49867697753459]
本稿では,精度と解釈性の両方を改善する2段階の法医学フレームワークZoomInを提案する。
トレーニングを支援するために,2万件のリアルタイムおよび高品質な合成画像のデータセットであるMagniFakeを紹介した。
本手法は,視覚的エビデンスに基づく人間の理解可能な説明を提供するとともに,ロバストな一般化を伴う96.39%の精度を実現する。
論文 参考訳(メタデータ) (2025-10-05T14:29:01Z) - Mirage: Unveiling Hidden Artifacts in Synthetic Images with Large Vision-Language Models [5.0378934905319355]
説明可能なAI画像検出にLVLM(Large Vision-Language Models)を利用することができるかを検討する。
Mirageと既存のベンチマークデータセットを用いた実験により、LVLMは目に見えるアーティファクトでAI生成画像を検出するのに非常に効果的であるが、そのような手がかりを欠いた画像に直面すると性能が低下することが示された。
論文 参考訳(メタデータ) (2025-10-04T15:38:39Z) - Semantic-Aware Reconstruction Error for Detecting AI-Generated Images [22.83053631078616]
本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
SAREは、さまざまな生成モデル間で偽画像を検出するための堅牢で差別的な機能を提供する。
また,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
論文 参考訳(メタデータ) (2025-08-13T04:37:36Z) - Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-08T08:47:44Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文 参考訳(メタデータ) (2025-03-19T14:37:21Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。