論文の概要: Rethinking VLMs for Image Forgery Detection and Localization
- arxiv url: http://arxiv.org/abs/2603.12930v1
- Date: Fri, 13 Mar 2026 12:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.07449
- Title: Rethinking VLMs for Image Forgery Detection and Localization
- Title(参考訳): 画像偽造検出と位置推定のためのVLMの再検討
- Authors: Shaofeng Guo, Jiequan Cui, Richang Hong,
- Abstract要約: 本稿では,視覚言語モデル(VLM)をフル活用して画像偽造検出・局所化(IFDL)タスクを支援する方法について検討する。
これらの知見に基づいて,IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案する。
実験結果から, 検出, 局所化, 解釈可能性において, 常に新しい最先端性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 55.32700985102152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid rise of Artificial Intelligence Generated Content (AIGC), image manipulation has become increasingly accessible, posing significant challenges for image forgery detection and localization (IFDL). In this paper, we study how to fully leverage vision-language models (VLMs) to assist the IFDL task. In particular, we observe that priors from VLMs hardly benefit the detection and localization performance and even have negative effects due to their inherent biases toward semantic plausibility rather than authenticity. Additionally, the location masks explicitly encode the forgery concepts, which can serve as extra priors for VLMs to ease their training optimization, thus enhancing the interpretability of detection and localization results. Building on these findings, we propose a new IFDL pipeline named IFDL-VLM. To demonstrate the effectiveness of our method, we conduct experiments on 9 popular benchmarks and assess the model performance under both in-domain and cross-dataset generalization settings. The experimental results show that we consistently achieve new state-of-the-art performance in detection, localization, and interpretability.Code is available at: https://github.com/sha0fengGuo/IFDL-VLM.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急速な普及に伴い、画像操作はますますアクセスしやすくなり、画像偽造検出とローカライゼーション(IFDL)において重要な課題となっている。
本稿では,視覚言語モデル(VLM)をフル活用してIFDLタスクを支援する方法について検討する。
特に, VLMの先行性は, 検出・局所化性能にはほとんど寄与せず, 真正性よりも意味的妥当性に固有の偏りがあるため, ネガティブな影響も与えない。
さらに、位置マスクは偽造概念を明示的にエンコードしており、VLMがトレーニングの最適化を容易にするために追加の事前情報として機能し、検出およびローカライゼーション結果の解釈可能性を高める。
これらの知見に基づいて,IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案する。
提案手法の有効性を示すため,9つの一般的なベンチマークを用いて実験を行い,ドメイン内およびデータセット間の一般化設定下でモデル性能を評価する。
実験結果は、検出、ローカライゼーション、解釈可能性における新しい最先端性能を一貫して達成していることを示し、 https://github.com/sha0fengGuo/IFDL-VLMで利用可能である。
関連論文リスト
- Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。