論文の概要: Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection
- arxiv url: http://arxiv.org/abs/2512.16300v1
- Date: Thu, 18 Dec 2025 08:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.983747
- Title: Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection
- Title(参考訳): Code-in-the-Loop Forensics: Image Forgery Detectionに使用されるエージェントツール
- Authors: Fanrui Zhang, Qiang Zhang, Sizhuo Zhou, Jianwen Sun, Chuanhao Li, Jiaxin Ai, Yukang Feng, Yujie Zhang, Wenjie Li, Zizhen Li, Yifan Chang, Jiawei Liu, Kaipeng Zhang,
- Abstract要約: ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
- 参考スコア(独自算出の注目度): 59.04089915447622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image forgery detection (IFD) methods either exploit low-level, semantics-agnostic artifacts or rely on multimodal large language models (MLLMs) with high-level semantic knowledge. Although naturally complementary, these two information streams are highly heterogeneous in both paradigm and reasoning, making it difficult for existing methods to unify them or effectively model their cross-level interactions. To address this gap, we propose ForenAgent, a multi-round interactive IFD framework that enables MLLMs to autonomously generate, execute, and iteratively refine Python-based low-level tools around the detection objective, thereby achieving more flexible and interpretable forgery analysis. ForenAgent follows a two-stage training pipeline combining Cold Start and Reinforcement Fine-Tuning to enhance its tool interaction capability and reasoning adaptability progressively. Inspired by human reasoning, we design a dynamic reasoning loop comprising global perception, local focusing, iterative probing, and holistic adjudication, and instantiate it as both a data-sampling strategy and a task-aligned process reward. For systematic training and evaluation, we construct FABench, a heterogeneous, high-quality agent-forensics dataset comprising 100k images and approximately 200k agent-interaction question-answer pairs. Experiments show that ForenAgent exhibits emergent tool-use competence and reflective reasoning on challenging IFD tasks when assisted by low-level tools, charting a promising route toward general-purpose IFD. The code will be released after the review process is completed.
- Abstract(参考訳): 既存の画像偽造検出(IFD)手法は、低レベル、セマンティックスに依存しないアーティファクトを利用するか、高レベルなセマンティック知識を持つマルチモーダルな大規模言語モデル(MLLM)に依存している。
自然に相補的ではあるが、これらの2つの情報ストリームはパラダイムと推論の両方において非常に異質であり、既存の手法がそれらを統一したり、相互レベルの相互作用を効果的にモデル化することは困難である。
このギャップに対処するため,我々は,MLLMが検出対象に関するPythonベースの低レベルツールを自動生成,実行,反復的に洗練し,より柔軟かつ解釈可能な偽造解析を実現するための,多ラウンド対話型IFDフレームワークであるForenAgentを提案する。
ForenAgentはCold StartとReinforcement Fine-Tuningを組み合わせた2段階のトレーニングパイプラインに従って、ツールのインタラクション機能を強化し、適応性を徐々に推論する。
人間の推論にインスパイアされた我々は,グローバルな認識,局所的な焦点,反復的探索,包括的適応を含む動的推論ループを設計し,それをデータサンプリング戦略とタスク対応プロセス報酬の両方としてインスタンス化する。
FABenchは,100kの画像と約200kのエージェント・インタラクション・問合せ対からなる,異質で高品質なエージェント・フォレシクス・データセットである。
実験により,ForenAgentは,低レベルツールを介在する作業において,IFDタスクに対する即時的ツール使用能力と反射的推論を示し,汎用IFDへの有望なルートを図示した。
レビュープロセスが完了すると、コードはリリースされます。
関連論文リスト
- Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection [19.240335260177382]
AIFo(Agent-based Image Forensics)は、マルチエージェントコラボレーションによる人間の法医学的調査をエミュレートする、トレーニング不要のフレームワークである。
従来の手法とは異なり,本フレームワークでは,リバース画像検索,メタデータ抽出,事前学習型分類器,VLM解析など,一連の法医学的ツールを用いている。
我々の総合的な評価は6000のイメージに及び、現代の生成プラットフォームや多様なオンラインソースの画像を含む現実世界のシナリオに挑戦する。
論文 参考訳(メタデータ) (2025-10-31T18:36:49Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Efficient Human-Object-Interaction (EHOI) Detection via Interaction Label Coding and Conditional Decision [33.59153869330463]
本研究では, 検出性能, 推論複雑性, 数学的透明性のバランスを良くするために, 効率の良いHOI検出器を提案する。
我々の貢献は、稀な相互作用のケースをエンコードするためのエラー訂正符号(ECC)の適用を含む。
実験により,ECC符号化対話ラベルの利点と検出性能とEHOI法の複雑さのバランスが良好であることが示された。
論文 参考訳(メタデータ) (2024-08-13T16:34:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。