論文の概要: Language-guided Hierarchical Fine-grained Image Forgery Detection and Localization
- arxiv url: http://arxiv.org/abs/2410.23556v1
- Date: Thu, 31 Oct 2024 01:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:57.452817
- Title: Language-guided Hierarchical Fine-grained Image Forgery Detection and Localization
- Title(参考訳): 言語誘導型階層型微細画像偽造検出と局所化
- Authors: Xiao Guo, Xiaohong Liu, Iacopo Masi, Xiaoming Liu,
- Abstract要約: CNN合成領域と画像編集領域で生成された画像の偽属性の差が大きい。
IFDL表現学習のための階層的きめ細かい定式化を提案する。
その結果、アルゴリズムは包括的特徴と異なるフォージェリー属性の固有の階層性の両方を学ぶことを奨励される。
- 参考スコア(独自算出の注目度): 17.5445037141816
- License:
- Abstract: Differences in forgery attributes of images generated in CNN-synthesized and image-editing domains are large, and such differences make a unified image forgery detection and localization (IFDL) challenging. To this end, we present a hierarchical fine-grained formulation for IFDL representation learning. Specifically, we first represent forgery attributes of a manipulated image with multiple labels at different levels. Then, we perform fine-grained classification at these levels using the hierarchical dependency between them. As a result, the algorithm is encouraged to learn both comprehensive features and the inherent hierarchical nature of different forgery attributes. In this work, we propose a Language-guided Hierarchical Fine-grained IFDL, denoted as HiFi-Net++. Specifically, HiFi-Net++ contains four components: a multi-branch feature extractor, a language-guided forgery localization enhancer, as well as classification and localization modules. Each branch of the multi-branch feature extractor learns to classify forgery attributes at one level, while localization and classification modules segment pixel-level forgery regions and detect image-level forgery, respectively. Also, the language-guided forgery localization enhancer (LFLE), containing image and text encoders learned by contrastive language-image pre-training (CLIP), is used to further enrich the IFDL representation. LFLE takes specifically designed texts and the given image as multi-modal inputs and then generates the visual embedding and manipulation score maps, which are used to further improve HiFi-Net++ manipulation localization performance. Lastly, we construct a hierarchical fine-grained dataset to facilitate our study. We demonstrate the effectiveness of our method on $8$ by using different benchmarks for both tasks of IFDL and forgery attribute classification. Our source code and dataset are available.
- Abstract(参考訳): CNN合成領域と画像編集領域で生成された画像の偽造特性の差が大きいため、画像偽造検出と局所化(IFDL)の統一化が困難である。
この目的のために、IFDL表現学習のための階層的きめ細かな定式化を提案する。
具体的には、まず、複数のラベルが異なるレベルで操作された画像の偽属性を表現します。
そして、それらの階層的依存関係を用いて、これらのレベルできめ細かい分類を行う。
その結果、アルゴリズムは包括的特徴と異なるフォージェリー属性の固有の階層性の両方を学ぶことを奨励される。
本研究では,HiFi-Net++と表記される言語誘導型階層型IFDLを提案する。
具体的には、HiFi-Net++には4つのコンポーネントが含まれている: マルチブランチ機能抽出器、言語誘導のフォージェリーローカライゼーションエンハンサー、そして分類とローカライゼーションモジュール。
マルチブランチ特徴抽出器の各ブランチは、局所化および分類モジュールが画素レベルのフォージェリ領域を分割し、画像レベルのフォージェリをそれぞれ検出しながら、フォージェリ属性を1レベルに分類する。
また、コントラスト言語画像事前学習(CLIP)によって学習された画像とテキストエンコーダを含む言語誘導フォージェリローカライゼーションエンハンサー(LFLE)を用いて、IFDL表現をさらに強化する。
LFLEは、特定の設計されたテキストと与えられたイメージをマルチモーダル入力とし、HiFi-Net++操作ローカライゼーション性能をさらに向上するために使用される視覚埋め込みと操作スコアマップを生成する。
最後に,我々の研究を容易にするために,階層的なきめ細かいデータセットを構築した。
IFDLと偽属性分類の両方のタスクに対して異なるベンチマークを用いて,提案手法の有効性を示す。
ソースコードとデータセットが利用可能です。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Subobject-level Image Tokenization [60.80949852899857]
トランスフォーマーベースの視覚モデルは通常、イメージを入力単位として固定サイズの正方形パッチにトークン化する。
言語モデルに広く採用されているサブワードトークン化に着想を得て,サブオブジェクトレベルでの画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Hierarchical Fine-Grained Image Forgery Detection and Localization [24.595585815686007]
IFDL表現学習のための階層的きめ細かい定式化を提案する。
まず、複数のラベルを異なるレベルのラベルで操作した画像の偽属性を表現します。
その結果、アルゴリズムは、様々なフォージェリー属性の包括的特徴と固有の階層性の両方を学ぶことを奨励されている。
論文 参考訳(メタデータ) (2023-03-30T02:51:52Z) - Attribute Group Editing for Reliable Few-shot Image Generation [85.52840521454411]
本稿では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。
AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。
論文 参考訳(メタデータ) (2022-03-16T06:54:09Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。