論文の概要: Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline
- arxiv url: http://arxiv.org/abs/2511.13442v2
- Date: Tue, 18 Nov 2025 06:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.892792
- Title: Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline
- Title(参考訳): バニラMLLMの偽造検出電位の解錠:新しい無訓練パイプライン
- Authors: Rui Zuo, Qinyue Tong, Zhe-Ming Lu, Ziqian Lu,
- Abstract要約: 画像偽造解析に適した訓練不要MLLMベースのパイプラインであるForeseeを提案する。
Foreseeはタイププライア駆動の戦略を採用し、コピー-ムーブ操作を処理するためにFlexible Feature Detectorモジュールを使用している。
提案手法は,より優れた局所化精度を実現し,より包括的なテキスト説明を提供する。
- 参考スコア(独自算出の注目度): 5.740204096484276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of artificial intelligence-generated content (AIGC) technologies, including multimodal large language models (MLLMs) and diffusion models, image generation and manipulation have become remarkably effortless. Existing image forgery detection and localization (IFDL) methods often struggle to generalize across diverse datasets and offer limited interpretability. Nowadays, MLLMs demonstrate strong generalization potential across diverse vision-language tasks, and some studies introduce this capability to IFDL via large-scale training. However, such approaches cost considerable computational resources, while failing to reveal the inherent generalization potential of vanilla MLLMs to address this problem. Inspired by this observation, we propose Foresee, a training-free MLLM-based pipeline tailored for image forgery analysis. It eliminates the need for additional training and enables a lightweight inference process, while surpassing existing MLLM-based methods in both tamper localization accuracy and the richness of textual explanations. Foresee employs a type-prior-driven strategy and utilizes a Flexible Feature Detector (FFD) module to specifically handle copy-move manipulations, thereby effectively unleashing the potential of vanilla MLLMs in the forensic domain. Extensive experiments demonstrate that our approach simultaneously achieves superior localization accuracy and provides more comprehensive textual explanations. Moreover, Foresee exhibits stronger generalization capability, outperforming existing IFDL methods across various tampering types, including copy-move, splicing, removal, local enhancement, deepfake, and AIGC-based editing. The code will be released in the final version.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)や拡散モデルを含む人工知能生成コンテンツ(AIGC)技術の急速な進歩により、画像生成と操作は驚くほど困難になっている。
既存の画像偽造検出とローカライゼーション(IFDL)手法は、様々なデータセットをまたいだ一般化に苦慮し、限定的な解釈性を提供する。
近年、MLLMは様々な視覚言語タスクにまたがる強力な一般化可能性を示しており、大規模な訓練を通じてIFDLに導入する研究もある。
しかし、そのような手法は計算資源をかなり消費する一方で、この問題に対処するバニラMLLMの固有の一般化ポテンシャルを明らかにしなかった。
この観察に触発されて、画像偽造解析に適した訓練不要MLLMベースのパイプラインであるForeseeを提案する。
追加のトレーニングの必要性を排除し、既存のMLLMベースの手法を超越しながら、テキストによる説明の豊かさとローカライゼーションの精度を両立させながら、軽量な推論プロセスを可能にする。
フォアシーはタイププライア駆動の戦略を採用し、フレキシブル・フィーチャー・ディテクター(FFD)モジュールを使用してコピー・モーブ操作を具体的に処理し、これにより法医学領域におけるバニラMLLMの可能性を効果的に解き放つ。
大規模な実験により,本手法はより優れた局所化精度を同時に達成し,より包括的なテキスト説明を提供することが示された。
さらに、Foreseeは、コピームーブ、スプライシング、削除、局所的な拡張、ディープフェイク、AIGCベースの編集など、既存のIFDLメソッドよりも優れた一般化能力を示している。
コードは最終バージョンでリリースされる。
関連論文リスト
- HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。
本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文 参考訳(メタデータ) (2025-07-23T10:41:46Z) - Visual Instruction Bottleneck Tuning [11.675789515164269]
マルチモーダルな大言語モデル(MLLM)は、分散シフトの下で不慣れなクエリに遭遇した場合、性能が低下する。
本稿では,表現学習の観点からMLLMの一般化とロバスト性を高めるための代替手法を提案する。
情報ボトルネック(IB)の原則にインスパイアされた我々は、MLLMのためのIBの変動的下限を導出し、実用的な実装であるVisual Instruction Bottleneck Tuning(Vittle)を考案する。
論文 参考訳(メタデータ) (2025-05-20T05:24:53Z) - Transfer between Modalities with MetaQueries [44.57406292414526]
自己回帰型マルチモーダルLLMと拡散モデルの間の効率的なインターフェースとして機能する,学習可能なクエリセットであるMetaQueriesを紹介する。
本手法は,2つの画像キャプチャデータと標準拡散目標のみを必要とする訓練を簡略化する。
本手法はフレキシブルであり,画像編集や主観的生成などの高度なアプリケーションに対して容易に命令調整を行うことができる。
論文 参考訳(メタデータ) (2025-04-08T17:58:47Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。