論文の概要: Training-Free In-Context Forensic Chain for Image Manipulation Detection and Localization
- arxiv url: http://arxiv.org/abs/2510.10111v1
- Date: Sat, 11 Oct 2025 08:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.789593
- Title: Training-Free In-Context Forensic Chain for Image Manipulation Detection and Localization
- Title(参考訳): 画像マニピュレーション検出と位置推定のための訓練不要なインテクスト・フォレスト・チェーン
- Authors: Rui Chen, Bin Liu, Changtao Miao, Xinghao Wang, Yi Li, Tao Gong, Qi Chu, Nenghai Yu,
- Abstract要約: In-Context Forensic Chain (ICFC) は、MLタスクの解釈にMLLM(Multi-modal large language model)を活用する、トレーニングフリーのフレームワークである。
ICFCは、信頼できる知識基盤を構築するために、オブジェクト化されたルール構築と適応的なフィルタリングを統合する。
ICFCは最先端のトレーニングフリーメソッドを超えるだけでなく、弱く完全に監督されたアプローチに比べて、競争力や優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.551943094262164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in image tampering pose serious security threats, underscoring the need for effective image manipulation localization (IML). While supervised IML achieves strong performance, it depends on costly pixel-level annotations. Existing weakly supervised or training-free alternatives often underperform and lack interpretability. We propose the In-Context Forensic Chain (ICFC), a training-free framework that leverages multi-modal large language models (MLLMs) for interpretable IML tasks. ICFC integrates an objectified rule construction with adaptive filtering to build a reliable knowledge base and a multi-step progressive reasoning pipeline that mirrors expert forensic workflows from coarse proposals to fine-grained forensics results. This design enables systematic exploitation of MLLM reasoning for image-level classification, pixel-level localization, and text-level interpretability. Across multiple benchmarks, ICFC not only surpasses state-of-the-art training-free methods but also achieves competitive or superior performance compared to weakly and fully supervised approaches.
- Abstract(参考訳): 画像改ざんの進展は深刻なセキュリティ上の脅威となり、画像操作の効果的なローカライゼーション(IML)の必要性が強調される。
教師付きIMLは高いパフォーマンスを達成するが、コストのかかるピクセルレベルのアノテーションに依存している。
既存の教師なしまたは訓練なしの代替手段は、しばしば性能が劣り、解釈性に欠ける。
In-Context Forensic Chain (ICFC) はマルチモーダルな大言語モデル(MLLM)を解釈可能なIMLタスクに活用するトレーニングフリーフレームワークである。
ICFCは、汎用ルール構築と適応フィルタリングを統合して、信頼性の高い知識ベースを構築するとともに、専門家の法医学的ワークフローを粗い提案からきめ細かい法医学的な結果に反映する多段階のプログレッシブ推論パイプラインを構築している。
この設計は、画像レベルの分類、ピクセルレベルのローカライゼーション、テキストレベルの解釈可能性のためのMLLM推論の体系的な利用を可能にする。
複数のベンチマークにおいて、ICFCは最先端のトレーニングフリーメソッドを超えるだけでなく、弱く完全に教師されたアプローチに比べて、競争力や優れたパフォーマンスを達成する。
関連論文リスト
- ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。