論文の概要: Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework
- arxiv url: http://arxiv.org/abs/2508.01338v1
- Date: Sat, 02 Aug 2025 12:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.831874
- Title: Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework
- Title(参考訳): 視覚言語協調推論フレームワークによる弱スーパービジョン画像フォージェリローカライゼーション
- Authors: Ziqi Sheng, Junyan Wu, Wei Lu, Jiantao Zhou,
- Abstract要約: ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 16.961220047066792
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image forgery localization aims to precisely identify tampered regions within images, but it commonly depends on costly pixel-level annotations. To alleviate this annotation burden, weakly supervised image forgery localization (WSIFL) has emerged, yet existing methods still achieve limited localization performance as they mainly exploit intra-image consistency clues and lack external semantic guidance to compensate for weak supervision. In this paper, we propose ViLaCo, a vision-language collaborative reasoning framework that introduces auxiliary semantic supervision distilled from pre-trained vision-language models (VLMs), enabling accurate pixel-level localization using only image-level labels. Specifically, ViLaCo first incorporates semantic knowledge through a vision-language feature modeling network, which jointly extracts textual and visual priors using pre-trained VLMs. Next, an adaptive vision-language reasoning network aligns textual semantics and visual features through mutual interactions, producing semantically aligned representations. Subsequently, these representations are passed into dual prediction heads, where the coarse head performs image-level classification and the fine head generates pixel-level localization masks, thereby bridging the gap between weak supervision and fine-grained localization. Moreover, a contrastive patch consistency module is introduced to cluster tampered features while separating authentic ones, facilitating more reliable forgery discrimination. Extensive experiments on multiple public datasets demonstrate that ViLaCo substantially outperforms existing WSIFL methods, achieving state-of-the-art performance in both detection and localization accuracy.
- Abstract(参考訳): 画像のフォージェリローカライゼーションは、画像内の改ざんされた領域を正確に識別することを目的としているが、一般的にはコストの高いピクセルレベルのアノテーションに依存している。
このアノテーションの負担を軽減するために、弱教師付きイメージフォージェリーローカライゼーション(WSIFL)が登場したが、既存の手法では、主に画像内一貫性の手がかりを活用し、弱い監督を補うための外部意味指導を欠いているため、ローカライゼーション性能が制限されている。
本稿では,事前学習された視覚言語モデル(VLM)から抽出した補助的セマンティック・インストラクションを導入し,画像レベルラベルのみを用いた正確な画素レベルのローカライゼーションを実現する視覚言語協調推論フレームワークであるViLaCoを提案する。
具体的には、ViLaCoはまず視覚言語の特徴モデリングネットワークを通じて意味知識を取り入れ、事前に訓練されたVLMを使用してテキストと視覚の先行情報を共同で抽出する。
次に、適応的な視覚言語推論ネットワークは、相互の相互作用を通じてテキストの意味論と視覚的特徴を整列し、意味的に整合した表現を生成する。
その後、これらの表現は二重予測ヘッドに渡され、粗いヘッドは画像レベルの分類を行い、微細なヘッドは画素レベルのローカライゼーションマスクを生成し、弱監督と微粒なローカライゼーションのギャップを埋める。
さらに、クラスタの改ざんされた機能に対して、真正な機能を分離しながら、より信頼性の高い偽造識別を容易にする、対照的なパッチ一貫性モジュールが導入されている。
複数の公開データセットに対する大規模な実験により、ViLaCoは既存のWSIFLメソッドを大幅に上回っており、検出とローカライゼーションの精度の両方で最先端のパフォーマンスを実現している。
関連論文リスト
- Helping CLIP See Both the Forest and the Trees: A Decomposition and Description Approach [43.419607730361996]
CLIPのようなビジョンランゲージモデル(VLM)は、対照的な学習を通じて、横断的なアライメントを実現する。
伝統的なプロンプトエンジニアリングは、きめ細かいカテゴリラベルに依存しており、きめ細かい局所的意味論を無視している。
そこで我々は,CLIPが局所化された視覚ディスクリプタを処理できるプラグイン・アンド・プレイソリューションを提案する。
論文 参考訳(メタデータ) (2025-07-04T10:24:26Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。