論文の概要: ManipShield: A Unified Framework for Image Manipulation Detection, Localization and Explanation
- arxiv url: http://arxiv.org/abs/2511.14259v1
- Date: Tue, 18 Nov 2025 08:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.018593
- Title: ManipShield: A Unified Framework for Image Manipulation Detection, Localization and Explanation
- Title(参考訳): ManipShield:イメージマニピュレーション検出、ローカライゼーション、説明のための統一フレームワーク
- Authors: Zitong Xu, Huiyu Duan, Xiaoyu Wang, Zhaolin Cai, Kaiwei Zhang, Qiang Hu, Jing Liu, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 画像操作検出と局所化のための大規模ベンチマークである textbfManipBench を提案する。
また,マルチモーダル大言語モデル(MLLM)に基づくオールインワンモデルであるtextbfManipShieldを提案する。
- 参考スコア(独自算出の注目度): 81.52606410224136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of generative models, powerful image editing methods now enable diverse and highly realistic image manipulations that far surpass traditional deepfake techniques, posing new challenges for manipulation detection. Existing image manipulation detection and localization (IMDL) benchmarks suffer from limited content diversity, narrow generative-model coverage, and insufficient interpretability, which hinders the generalization and explanation capabilities of current manipulation detection methods. To address these limitations, we introduce \textbf{ManipBench}, a large-scale benchmark for image manipulation detection and localization focusing on AI-edited images. ManipBench contains over 450K manipulated images produced by 25 state-of-the-art image editing models across 12 manipulation categories, among which 100K images are further annotated with bounding boxes, judgment cues, and textual explanations to support interpretable detection. Building upon ManipBench, we propose \textbf{ManipShield}, an all-in-one model based on a Multimodal Large Language Model (MLLM) that leverages contrastive LoRA fine-tuning and task-specific decoders to achieve unified image manipulation detection, localization, and explanation. Extensive experiments on ManipBench and several public datasets demonstrate that ManipShield achieves state-of-the-art performance and exhibits strong generality to unseen manipulation models. Both ManipBench and ManipShield will be released upon publication.
- Abstract(参考訳): 生成モデルの急速な進歩により、強力な画像編集手法により、従来のディープフェイク技術をはるかに超越した、多種多様な、非常に現実的な画像操作が可能になった。
既存の画像操作検出・ローカライゼーション(IMDL)ベンチマークは、コンテンツ多様性の制限、生成モデルの範囲の狭さ、解釈可能性の欠如に悩まされており、現在の操作検出手法の一般化と説明を妨げている。
これらの制限に対処するために、AI編集画像に焦点をあてた画像検出とローカライゼーションのための大規模ベンチマークである \textbf{ManipBench} を導入する。
ManipBenchには、12の操作カテゴリにわたる25の最先端の画像編集モデルによって生成される450K以上の操作済みイメージが含まれており、そのうち100Kイメージには、解釈可能な検出をサポートするためのバウンディングボックス、判定キュー、テキスト説明が付加されている。
ManipBench をベースとしたマルチモーダル大言語モデル (MLLM) に基づくオールインワンモデルである \textbf{ManipShield} を提案する。
ManipBenchといくつかの公開データセットに関する大規模な実験は、ManipShieldが最先端のパフォーマンスを達成し、目に見えない操作モデルに対して強力な汎用性を示すことを示している。
ManipBench と ManipShield はいずれも出版時にリリースされる。
関連論文リスト
- Weakly-supervised Localization of Manipulated Image Regions Using Multi-resolution Learned Features [4.83420384410068]
現在のディープラーニングに基づく操作検出手法は、高い画像レベルの分類精度を達成するのに優れている。
実世界のシナリオにおけるピクセルワイズアノテーションの欠如は、既存の完全に制御された操作ローカライゼーション技術を制限する。
本稿では,画像レベルの操作検出ネットワークが生成するアクティベーションマップと,事前学習したモデルからのセグメンテーションマップを統合する,弱教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-29T15:58:29Z) - Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。
画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。
本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:35:09Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models [16.737419222106308]
FakeShieldは、画像の信頼性を評価し、改ざんされた領域マスクを生成し、画素レベルおよび画像レベルの改ざんヒントに基づいた判断基準を提供するフレームワークである。
実験では、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供する。
論文 参考訳(メタデータ) (2024-10-03T17:59:34Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。