論文の概要: Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2508.17976v1
- Date: Mon, 25 Aug 2025 12:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.780821
- Title: Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization
- Title(参考訳): Propose and Rectify: 画像操作ローカライゼーションのための法科学駆動型MLLMフレームワーク
- Authors: Keyang Zhang, Chenqi Kong, Hui Liu, Bo Ding, Xinghao Jiang, Haoliang Li,
- Abstract要約: 本稿では,意味論的推論と法科学的な分析を橋渡しするPropose-Rectifyフレームワークを提案する。
提案手法は,具体的技術実証により,初期セマンティックな提案が体系的に検証され,拡張されることを保証し,包括的検出精度と局所化精度を実現する。
- 参考スコア(独自算出の注目度): 49.71303998618939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing sophistication of image manipulation techniques demands robust forensic solutions that can both reliably detect alterations and precisely localize tampered regions. Recent Multimodal Large Language Models (MLLMs) show promise by leveraging world knowledge and semantic understanding for context-aware detection, yet they struggle with perceiving subtle, low-level forensic artifacts crucial for accurate manipulation localization. This paper presents a novel Propose-Rectify framework that effectively bridges semantic reasoning with forensic-specific analysis. In the proposal stage, our approach utilizes a forensic-adapted LLaVA model to generate initial manipulation analysis and preliminary localization of suspicious regions based on semantic understanding and contextual reasoning. In the rectification stage, we introduce a Forensics Rectification Module that systematically validates and refines these initial proposals through multi-scale forensic feature analysis, integrating technical evidence from several specialized filters. Additionally, we present an Enhanced Segmentation Module that incorporates critical forensic cues into SAM's encoded image embeddings, thereby overcoming inherent semantic biases to achieve precise delineation of manipulated regions. By synergistically combining advanced multimodal reasoning with established forensic methodologies, our framework ensures that initial semantic proposals are systematically validated and enhanced through concrete technical evidence, resulting in comprehensive detection accuracy and localization precision. Extensive experimental validation demonstrates state-of-the-art performance across diverse datasets with exceptional robustness and generalization capabilities.
- Abstract(参考訳): 画像操作技術の高度化は、変化を確実に検出し、改ざんされた領域を正確に局所化できる堅牢な法医学的ソリューションを必要とする。
近年のMultimodal Large Language Models (MLLM) は、文脈認識検出に世界知識と意味理解を活用することで、将来性を示すが、正確な操作ローカライゼーションに不可欠な微妙で低レベルな法医学的アーティファクトの認識に苦慮している。
本稿では,意味論的推論と法科学的な分析を効果的に橋渡しする,Propose-Rectifyフレームワークを提案する。
提案手法では,法医学的適応型LLaVAモデルを用いて,意味的理解と文脈的推論に基づいて,疑わしい領域の初期的操作解析と予備的局所化を生成する。
修正段階では,複数の特殊なフィルタから技術証拠を統合して,これらの初期提案を体系的に検証し,多スケールの法医学的特徴分析により洗練する法学修正モジュールを導入する。
さらに,SAMのエンコード画像埋め込みに重要な法医学的手がかりを組み込んだ拡張セグメンテーションモジュールを提案する。
先進的マルチモーダル推論と確立された法学手法を相乗的に組み合わせることで,具体的な技術的証拠を通じて初期意味論的提案が体系的に検証され,拡張され,包括的検出精度と局所化精度が保証される。
大規模な実験的検証は、異常な堅牢性と一般化能力を持つ多様なデータセットにわたる最先端のパフォーマンスを示す。
関連論文リスト
- AD-FM: Multimodal LLMs for Anomaly Detection via Multi-Stage Reasoning and Fine-Grained Reward Optimization [43.86757207244911]
2つのシナジスティックな革新を通して制限に対処する包括的フレームワークを提案する。
まず、地域識別から集中検査までモデルをガイドする多段階議論的推論プロセスを導入する。
第2に、分類精度と局所化監督を組み込んだ微粒化報酬機構を開発する。
論文 参考訳(メタデータ) (2025-08-06T08:00:27Z) - Chances and Challenges of the Model Context Protocol in Digital Forensics and Incident Response [0.0]
大規模な言語モデルは、法医学的な調査をサポートするためのかなりの約束を持っているが、その広く採用されていることは透明性の欠如によって妨げられている。
本稿では,新たなモデルコンテキストプロトコルがこれらの課題に対処し,デジタル法医学におけるLLMの意義ある活用を支援する方法について考察する。
論文 参考訳(メタデータ) (2025-05-30T22:15:48Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Cross-target Stance Detection by Exploiting Target Analytical
Perspectives [22.320628580895164]
目標位置検出(CTSD)は,目標位置からのアノテートデータを利用することで,目標位置の姿勢を推定する重要なタスクである。
CTSDにおける重要なアプローチの1つは、複数のターゲット間の知識ギャップを埋めるために、ドメイン不変の特徴を抽出することである。
本稿では,解析的視点をブリッジとして用いたCTSDのためのMPPTモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:28:55Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。