論文の概要: ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization
- arxiv url: http://arxiv.org/abs/2602.14098v1
- Date: Sun, 15 Feb 2026 11:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.652052
- Title: ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization
- Title(参考訳): ForgeryVCR:画像フォルジェリー検出と位置検出のためのMLLMの効率的な法医学的ツールによる視覚中心推論
- Authors: Youqi Wang, Shen Chen, Haowei Wang, Rongxuan Peng, Taiping Yao, Shunquan Tan, Changsheng Chen, Bin Li, Shouhong Ding,
- Abstract要約: ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 62.03035862528452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Multimodal Large Language Models (MLLMs) for image forgery detection and localization predominantly operate under a text-centric Chain-of-Thought (CoT) paradigm. However, forcing these models to textually characterize imperceptible low-level tampering traces inevitably leads to hallucinations, as linguistic modalities are insufficient to capture such fine-grained pixel-level inconsistencies. To overcome this, we propose ForgeryVCR, a framework that incorporates a forensic toolbox to materialize imperceptible traces into explicit visual intermediates via Visual-Centric Reasoning. To enable efficient tool utilization, we introduce a Strategic Tool Learning post-training paradigm, encompassing gain-driven trajectory construction for Supervised Fine-Tuning (SFT) and subsequent Reinforcement Learning (RL) optimization guided by a tool utility reward. This paradigm empowers the MLLM to act as a proactive decision-maker, learning to spontaneously invoke multi-view reasoning paths including local zoom-in for fine-grained inspection and the analysis of invisible inconsistencies in compression history, noise residuals, and frequency domains. Extensive experiments reveal that ForgeryVCR achieves state-of-the-art (SOTA) performance in both detection and localization tasks, demonstrating superior generalization and robustness with minimal tool redundancy. The project page is available at https://youqiwong.github.io/projects/ForgeryVCR/.
- Abstract(参考訳): 画像偽造検出とローカライゼーションのための既存のマルチモーダル大言語モデル(MLLM)は、主にテキスト中心のChain-of-Thought(CoT)パラダイムの下で機能する。
しかし、これらのモデルにテキストで認識不能な低レベルの改ざんトレースを特徴付けるように強制すると、言語的モダリティがそのような微細なピクセルレベルの不整合を捉えるには不十分であるため、必然的に幻覚を招きかねない。
この問題を解決するためにForgeryVCRを提案する。ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通して、知覚不可能なトレースを明示的な視覚中間体に実体化するための法定ツールボックスを組み込んだフレームワークである。
効率的なツール利用を実現するために,我々は,ツールユーティリティ報酬によって誘導されるSFT(Supervised Fine-Tuning)とその後の強化学習(Reinforcement Learning, RL)最適化のためのゲイン駆動軌道構築を含む,ストラテジックツール学習のポストトレーニングパラダイムを導入する。
このパラダイムはMLLMが積極的な意思決定者として機能することを可能にし、局所ズームインを含む細粒度検査や圧縮履歴、ノイズ残差、周波数領域における見えない不整合の分析を自然に行うことを学習する。
大規模な実験により、ForgeryVCRは検出タスクとローカライゼーションタスクの両方で最先端(SOTA)のパフォーマンスを達成し、ツール冗長性を最小限に抑えて、より優れた一般化と堅牢性を実証した。
プロジェクトページはhttps://youqiwong.github.io/projects/ForgeryVCR/で公開されている。
関連論文リスト
- Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Thinking with Programming Vision: Towards a Unified View for Thinking with Images [23.596757163808906]
最先端のMLLMでさえ驚くほど不安定であり、単純な向きの変化や自然破壊を伴う画像の性能劣化が顕著であることを示す。
我々は,モデルが任意のイメージ操作を実行するユニバーサルインターフェースとしてコードを生成する,フレキシブルでスケーラブルなコード・アズ・ツール・フレームワークであるCodeVisionを提案する。
論文 参考訳(メタデータ) (2025-12-03T12:44:15Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。