論文の概要: ClueAegis: Heuristic-to-Reasoning Cognitive-skill Learning for Unified Evidence-based Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2605.25009v1
- Date: Sun, 24 May 2026 11:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.651818
- Title: ClueAegis: Heuristic-to-Reasoning Cognitive-skill Learning for Unified Evidence-based Synthetic Image Detection
- Title(参考訳): ClueAegis:統一エビデンスに基づく画像検出のためのヒューリスティック・ツー・推論型認知スキル学習
- Authors: Huangsen Cao, Hongkang Chu, Yuxi Li, Ying Zhang, Chen Li, Jing Lyu, Yongwei Wang, Yu Zhao, Fei Wu,
- Abstract要約: 既存の方法は、しばしばエンドツーエンドの分類やモノリシックな推論に制限される。
本稿では,エビデンスに基づく法医学的分析のための認知スキル学習フレームワークを提案する。
ClueAegisは、クロスドメインとロバスト性を改善しつつ、最先端のパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 25.871829081625496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of generative models has made synthetic images increasingly realistic, challenging reliable detection. Existing methods are often limited to end-to-end classification or monolithic reasoning, and thus fail to model structured forensic reasoning and heterogeneous visual evidence. We revisit synthetic image detection from a cognitive perspective and propose a \textit{Heuristic-to-Reasoning} cognitive skill learning framework for evidence-based forensic analysis. Given an input image, our framework first extracts heuristic perceptual clues, selects the optimal forensic skill, and then performs skill-conditioned reasoning for evidence extraction and decision making. To support this paradigm, we introduce \textbf{ClueAegis-Bench}, which decomposes synthetic image detection into explicitly annotated forensic cognitive skills for structured evaluation beyond binary classification. Based on this benchmark, we propose \textbf{ClueAegis} (\underline{C}ognitive-skill \underline{L}earning for \underline{U}nified \underline{E}vidence-based Synthetic Image Detection), a two-stage agentic framework that conducts heuristic skill selection followed by evidence-guided reasoning through skill-conditioned toolchains. This design reformulates synthetic image detection as a configurable multi-skill reasoning process that bridges perception, skill selection, and forensic reasoning. Extensive experiments show that ClueAegis achieves state-of-the-art performance while improving cross-domain generalization and robustness. It also provides transparent reasoning trajectories and structured forensic evidence, offering a more explainable alternative to conventional end-to-end detectors.
- Abstract(参考訳): 生成モデルの急速な進歩により、合成画像はますます現実的になり、信頼性の高い検出が困難になっている。
既存の手法は、しばしばエンドツーエンドの分類やモノリシックな推論に制限されるため、構造化された法医学的推論や不均一な視覚的証拠をモデル化することができない。
我々は,認知的観点からの合成画像検出を再考し,証拠に基づく法医学的分析のための認知的スキル学習フレームワークである「textit{Heuristic-to-Reasoning}」を提案する。
入力画像が与えられた場合、まずヒューリスティックな知覚的手がかりを抽出し、最適な法医学的スキルを選択し、その後、証拠抽出と意思決定のためのスキル条件付き推論を行う。
このパラダイムをサポートするために,合成画像検出を2進分類を超えた構造化評価のための明示的に注釈付けされた法医学的認知スキルに分解する「textbf{ClueAegis-Bench}」を紹介した。
本ベンチマークでは, ヒューリスティックなスキル選択を行う2段階のエージェント・フレームワークである \textbf{ClueAegis} ( \underline{C}ognitive-skill \underline{L}earning for \underline{U}nified \underline{E}vidence-based Synthetic Image Detection を提案する。
この設計は、認識、スキル選択、法医学的推論を橋渡しする構成可能なマルチスキル推論プロセスとして合成画像検出を再構成する。
ClueAegisは、クロスドメインの一般化とロバスト性を改善しつつ、最先端のパフォーマンスを実現している。
また、透明な推論軌道と構造化された法医学的証拠を提供し、従来のエンドツーエンド検出器よりも説明しやすい代替手段を提供する。
関連論文リスト
- Detection of Hate and Threat in Digital Forensics: A Case-Driven Multimodal Approach [0.0]
本稿では,法医学的分析におけるヘイトと脅威検出のためのケース駆動型マルチモーダルアプローチを提案する。
提案フレームワークは,埋め込みテキストと関連するコンテキストテキストと画像のみのエビデンスとを区別し,テキストエビデンスの存在と情報源を明確に決定する。
証拠の可用性を推論することで、アプローチは法医学的な意思決定を反映し、明らかなトレーサビリティを改善し、不正なモダリティの仮定を避ける。
論文 参考訳(メタデータ) (2026-04-08T21:50:02Z) - AgentFoX: LLM Agent-Guided Fusion with eXplainability for AI-Generated Image Detection [21.02452809723292]
動的多相解析プロセスとしてAIGI検出を再定義するフレームワークである textbfAgentFoX を提案する。
本手法では,キュレートされた知識ベースによって誘導される高速積分融合機構を用いる。
AgentFoXは、その判断を裏付ける詳細な人間可読な法医学レポートを作成している。
論文 参考訳(メタデータ) (2026-03-24T12:10:21Z) - Unsupervised Synthetic Image Attribution: Alignment and Disentanglement [55.853285140682665]
そこで我々は,アライメント・アンド・ディスタングルメント(Alignment and Disentanglement)という,シンプルで効果的な教師なしの手法を提案する。
具体的には、コントラッシブな自己教師あり学習を用いて基本的な概念アライメントを実行することから始める。
次に、Infomax損失による表現のゆがみを促進することにより、モデルの属性能力を高める。
論文 参考訳(メタデータ) (2026-01-30T07:31:53Z) - REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection [30.963994372913092]
我々は、AI生成画像検出のための最初の推論強化マルチモーダルベンチマークである textbfREVEAL-Bench を紹介する。
筆者らのフレームワークは,検出を専門家による新しい強化学習と統合する。
REVEALは検出精度、説明忠実度、堅牢なクロスモデル一般化を著しく向上させる。
論文 参考訳(メタデータ) (2025-11-28T13:11:08Z) - From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection [19.240335260177382]
AIFo(Agent-based Image Forensics)は、マルチエージェントコラボレーションによる人間の法医学的調査をエミュレートする、トレーニング不要のフレームワークである。
従来の手法とは異なり,本フレームワークでは,リバース画像検索,メタデータ抽出,事前学習型分類器,VLM解析など,一連の法医学的ツールを用いている。
我々の総合的な評価は6000のイメージに及び、現代の生成プラットフォームや多様なオンラインソースの画像を含む現実世界のシナリオに挑戦する。
論文 参考訳(メタデータ) (2025-10-31T18:36:49Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization [49.71303998618939]
本稿では,意味論的推論と法科学的な分析を橋渡しするPropose-Rectifyフレームワークを提案する。
提案手法は,具体的技術実証により,初期セマンティックな提案が体系的に検証され,拡張されることを保証し,包括的検出精度と局所化精度を実現する。
論文 参考訳(メタデータ) (2025-08-25T12:43:53Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Natias: Neuron Attribution based Transferable Image Adversarial Steganography [62.906821876314275]
逆行性ステガナグラフィーは、ディープラーニングに基づくステガナリシスを効果的に欺く能力から、かなりの注目を集めている。
そこで我々は,Natias という新たな逆向きステガノグラフィー手法を提案する。
提案手法は既存の逆向きステガノグラフィーフレームワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-08T04:09:51Z) - A Principled Design of Image Representation: Towards Forensic Tasks [75.40968680537544]
本稿では, 理論, 実装, 応用の観点から, 法科学指向の画像表現を別の問題として検討する。
理論レベルでは、Dense Invariant Representation (DIR)と呼ばれる、数学的保証を伴う安定した記述を特徴とする、新しい法医学の表現フレームワークを提案する。
本稿では, ドメインパターンの検出とマッチング実験について, 最先端の記述子との比較結果を提供する。
論文 参考訳(メタデータ) (2022-03-02T07:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。