論文の概要: Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images
- arxiv url: http://arxiv.org/abs/2510.10231v1
- Date: Sat, 11 Oct 2025 14:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.850588
- Title: Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images
- Title(参考訳): AI生成画像における意味的視覚異常の検出と推論
- Authors: Chuangchuang Tan, Xiang Ming, Jinglu Wang, Renshuai Tao, Bin Li, Yunchao Wei, Yao Zhao, Yan Lu,
- Abstract要約: AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
- 参考スコア(独自算出の注目度): 96.43608872116347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI-generated content (AIGC) has enabled the synthesis of visually convincing images; however, many such outputs exhibit subtle \textbf{semantic anomalies}, including unrealistic object configurations, violations of physical laws, or commonsense inconsistencies, which compromise the overall plausibility of the generated scenes. Detecting these semantic-level anomalies is essential for assessing the trustworthiness of AIGC media, especially in AIGC image analysis, explainable deepfake detection and semantic authenticity assessment. In this paper, we formalize \textbf{semantic anomaly detection and reasoning} for AIGC images and introduce \textbf{AnomReason}, a large-scale benchmark with structured annotations as quadruples \emph{(Name, Phenomenon, Reasoning, Severity)}. Annotations are produced by a modular multi-agent pipeline (\textbf{AnomAgent}) with lightweight human-in-the-loop verification, enabling scale while preserving quality. At construction time, AnomAgent processed approximately 4.17\,B GPT-4o tokens, providing scale evidence for the resulting structured annotations. We further show that models fine-tuned on AnomReason achieve consistent gains over strong vision-language baselines under our proposed semantic matching metric (\textit{SemAP} and \textit{SemF1}). Applications to {explainable deepfake detection} and {semantic reasonableness assessment of image generators} demonstrate practical utility. In summary, AnomReason and AnomAgent serve as a foundation for measuring and improving the semantic plausibility of AI-generated images. We will release code, metrics, data, and task-aligned models to support reproducible research on semantic authenticity and interpretable AIGC forensics.
- Abstract(参考訳): AIGCの急速な進歩により、視覚的に説得力のある画像の合成が可能になったが、そのような出力の多くは、非現実的なオブジェクト構成、物理法違反、コモンセンスの不整合など、微妙な \textbf{semantic anomalies} を示す。
これらの意味レベルの異常を検出することは、AIGCメディアの信頼性を評価するために不可欠である。
本稿では,AIGC画像に対する \textbf{semantic anomaly detection and reasoning} の形式化と,4倍のアノテーションを持つ大規模ベンチマークである \textbf{AnomReason} を導入する。
アノテーションは、モジュール型マルチエージェントパイプライン(\textbf{AnomAgent})によって生成され、軽量なヒューマン・イン・ザ・ループ検証により、品質を保ちながらスケールを可能にする。
建設時、AnomAgentはおよそ4.17\,B GPT-4oトークンを処理し、結果として得られた構造化アノテーションのスケール証拠を提供した。
さらに、AnomReasonで微調整されたモデルは、提案したセマンティックマッチングメトリック(\textit{SemAP} と \textit{SemF1} )の下で、強い視覚言語ベースラインよりも一貫したゲインが得られることを示す。
画像生成装置の「説明可能なディープフェイク検出」および「セマンティック合理的性評価」への応用は実用性を示している。
要約すると、AnomReasonとAnomAgentはAI生成画像の意味的妥当性の測定と改善の基盤となっている。
私たちは、セマンティック認証と解釈可能なAIGCの法医学に関する再現可能な研究をサポートするために、コード、メトリクス、データ、タスクに沿ったモデルをリリースします。
関連論文リスト
- ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Semantic-Aware Reconstruction Error for Detecting AI-Generated Images [22.83053631078616]
本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
SAREは、さまざまな生成モデル間で偽画像を検出するための堅牢で差別的な機能を提供する。
また,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
論文 参考訳(メタデータ) (2025-08-13T04:37:36Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。
このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。
複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-14T16:21:05Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Discovering Universal Semantic Triggers for Text-to-Image Synthesis [29.43615017915006]
入力テキスト内の任意の場所に付加できるトークンシーケンスであるUniversal Semantic Triggerを導入する。
我々の研究は、テキストと画像の合成のさらなる理解に寄与し、ユーザがデプロイ前にモデルを自動的に監査するのに役立つ。
論文 参考訳(メタデータ) (2024-02-12T10:56:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。