論文の概要: INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts
- arxiv url: http://arxiv.org/abs/2511.22351v1
- Date: Thu, 27 Nov 2025 11:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.541778
- Title: INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts
- Title(参考訳): INSIGHT: 生成アーティファクトの推論のための解釈可能なニューラルビジョンランゲージフレームワーク
- Authors: Anshul Bagaria,
- Abstract要約: 現在の法医学システムは、現実世界の条件下で急速に低下している。
ほとんどの検出器は不透明物として機能し、なぜ画像が合成物としてフラグ付けされるのかについての知見はほとんど得られない。
本稿では,AI生成画像のロバスト検出と透過的説明のための統合フレームワークであるINSIGHTを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing realism of AI-generated images produced by recent GAN and diffusion models has intensified concerns over the reliability of visual media. Yet, despite notable progress in deepfake detection, current forensic systems degrade sharply under real-world conditions such as severe downsampling, compression, and cross-domain distribution shifts. Moreover, most detectors operate as opaque classifiers, offering little insight into why an image is flagged as synthetic, undermining trust and hindering adoption in high-stakes settings. We introduce INSIGHT (Interpretable Neural Semantic and Image-based Generative-forensic Hallucination Tracing), a unified multimodal framework for robust detection and transparent explanation of AI-generated images, even at extremely low resolutions (16x16 - 64x64). INSIGHT combines hierarchical super-resolution for amplifying subtle forensic cues without inducing misleading artifacts, Grad-CAM driven multi-scale localization to reveal spatial regions indicative of generative patterns, and CLIP-guided semantic alignment to map visual anomalies to human-interpretable descriptors. A vision-language model is then prompted using a structured ReAct + Chain-of-Thought protocol to produce consistent, fine-grained explanations, verified through a dual-stage G-Eval + LLM-as-a-judge pipeline to minimize hallucinations and ensure factuality. Across diverse domains, including animals, vehicles, and abstract synthetic scenes, INSIGHT substantially improves both detection robustness and explanation quality under extreme degradation, outperforming prior detectors and black-box VLM baselines. Our results highlight a practical path toward transparent, reliable AI-generated image forensics and establish INSIGHT as a step forward in trustworthy multimodal content verification.
- Abstract(参考訳): 近年のGANと拡散モデルによって生成されたAI生成画像のリアリズムが増大し、ビジュアルメディアの信頼性に対する懸念が高まっている。
しかし、ディープフェイク検出の顕著な進歩にもかかわらず、現在の法医学システムは、厳しいダウンサンプリング、圧縮、ドメイン間の分散シフトといった現実世界の条件下で急速に低下している。
さらに、ほとんどの検出器は不透明な分類器として機能し、画像がなぜ合成され、信頼が損なわれ、高精細な設定で採用が妨げられるのかについての洞察はほとんど得られない。
InSIGHT(Interpretable Neural Semantic and Image-based Generative-forensic Hallucination Tracing)は,高解像度(16x16-64x64)であっても,AI生成画像の堅牢な検出と透過的説明のための統合マルチモーダルフレームワークである。
INSIGHTは、誤解を招くアーティファクトを誘導することなく、微妙な法医学的手がかりを増幅するための階層的超解像、生成パターンを示す空間領域を明らかにするためのGrad-CAM駆動のマルチスケールローカライゼーション、視覚異常を人間の解釈可能な記述子にマッピングするためのCLIP誘導セマンティックアライメントを組み合わせている。
視覚言語モデルは、構造化されたReAct + Chain-of-Thoughtプロトコルを使用して、一貫したきめ細かな説明を生成し、二重ステージのG-Eval + LLM-as-a-judgeパイプラインを通して検証し、幻覚を最小化し、事実性を保証する。
動物、車両、抽象的な合成シーンを含む様々な領域において、INSIGHTは検出の堅牢性と説明の質の両方を極端に劣化させ、先行検出器とブラックボックスのVLMベースラインを上回っている。
この結果は、透明で信頼性の高いAI生成画像鑑定への実践的な道のりを強調し、信頼性の高いマルチモーダルコンテンツ検証の一歩としてINSIGHTを確立した。
関連論文リスト
- Semantic-Aware Reconstruction Error for Detecting AI-Generated Images [22.83053631078616]
本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
SAREは、さまざまな生成モデル間で偽画像を検出するための堅牢で差別的な機能を提供する。
また,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
論文 参考訳(メタデータ) (2025-08-13T04:37:36Z) - NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-08T08:47:44Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Explainable Synthetic Image Detection through Diffusion Timestep Ensembling [30.298198387824275]
本稿では,複数の雑音の時間ステップでアンサンブルを訓練することにより,中間雑音画像の特徴を直接活用する合成画像検出手法を提案する。
人間の理解を深めるために,メートル法に基づく説明文生成と改良モジュールを導入する。
本手法は, 正解率98.91%, 正解率95.89%, 正解率95.89%, 正解率98.91%, 正解率95.89%である。
論文 参考訳(メタデータ) (2025-03-08T13:04:20Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。