論文の概要: Exploring the Collaborative Advantage of Low-level Information on Generalizable AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2504.00463v1
- Date: Tue, 01 Apr 2025 06:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:04.788012
- Title: Exploring the Collaborative Advantage of Low-level Information on Generalizable AI-Generated Image Detection
- Title(参考訳): 一般化可能なAI生成画像検出における低レベル情報の協調的優位性の検討
- Authors: Ziyin Zhou, Ke Sun, Zhongxi Chen, Xianming Lin, Yunpeng Luo, Ke Yan, Shouhong Ding, Xiaoshuai Sun,
- Abstract要約: 既存のAI生成画像検出手法では、単一の低レベル情報しか考慮していない。
異なる低レベル情報はしばしば異なる種類の偽造物に対する一般化能力を示す。
適応型低レベルエキスパートインジェクションフレームワークを提案し、バックボーンネットワークが異なる低レベル情報から知識を受け入れて学習できるようにする。
- 参考スコア(独自算出の注目度): 46.5480496076675
- License:
- Abstract: Existing state-of-the-art AI-Generated image detection methods mostly consider extracting low-level information from RGB images to help improve the generalization of AI-Generated image detection, such as noise patterns. However, these methods often consider only a single type of low-level information, which may lead to suboptimal generalization. Through empirical analysis, we have discovered a key insight: different low-level information often exhibits generalization capabilities for different types of forgeries. Furthermore, we found that simple fusion strategies are insufficient to leverage the detection advantages of each low-level and high-level information for various forgery types. Therefore, we propose the Adaptive Low-level Experts Injection (ALEI) framework. Our approach introduces Lora Experts, enabling the backbone network, which is trained with high-level semantic RGB images, to accept and learn knowledge from different low-level information. We utilize a cross-attention method to adaptively fuse these features at intermediate layers. To prevent the backbone network from losing the modeling capabilities of different low-level features during the later stages of modeling, we developed a Low-level Information Adapter that interacts with the features extracted by the backbone network. Finally, we propose Dynamic Feature Selection, which dynamically selects the most suitable features for detecting the current image to maximize generalization detection capability. Extensive experiments demonstrate that our method, finetuned on only four categories of mainstream ProGAN data, performs excellently and achieves state-of-the-art results on multiple datasets containing unseen GAN and Diffusion methods.
- Abstract(参考訳): 既存の最先端のAI生成画像検出手法では、ノイズパターンなどのAI生成画像検出の一般化を支援するため、RGB画像から低レベル情報を抽出することを主に検討している。
しかしながら、これらの手法は単一の低レベル情報のみを考慮し、最適化下一般化につながる可能性がある。
異なる低レベル情報はしばしば異なる種類の偽造の一般化能力を示す。
さらに,様々な偽造型に対して,各低レベルおよび高レベル情報の検出優位性を利用するには,単純な融合戦略が不十分であることが判明した。
そこで本研究では,適応型低レベルエキスパートインジェクション(ALEI)フレームワークを提案する。
提案手法では,高レベルの意味的RGB画像を用いてトレーニングされたバックボーンネットワークを,低レベルの異なる情報から知識を受け入れ,学習することを可能にする。
我々は,これらの特徴を中間層で適応的に融合するために,クロスアテンション法を利用する。
バックボーンネットワークがモデリング後期に異なる低レベル特徴のモデリング能力を失うのを防ぐため,バックボーンネットワークが抽出した特徴と相互作用する低レベル情報適応器を開発した。
最後に,現在の画像を検出するのに最適な特徴を動的に選択し,一般化検出能力を最大化する動的特徴選択を提案する。
大規模な実験により,本手法は主流の ProGAN データの4つのカテゴリのみを微調整し,未確認な GAN と Diffusion の手法を含む複数のデータセットに対する最先端の処理結果を得ることができた。
関連論文リスト
- Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - Diffusion Model Based Visual Compensation Guidance and Visual Difference Analysis for No-Reference Image Quality Assessment [78.21609845377644]
本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T09:39:46Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - Fusing Global and Local Features for Generalized AI-Synthesized Image
Detection [31.35052580048599]
画像全体からのグローバル空間情報と,新しいパッチ選択モジュールによって選択されたパッチからの局所的な情報的特徴を結合する2分岐モデルを設計する。
さまざまなオブジェクトと解像度を持つ19のモデルで合成された非常に多様なデータセットを収集し、モデルを評価する。
論文 参考訳(メタデータ) (2022-03-26T01:55:37Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Unifying Remote Sensing Image Retrieval and Classification with Robust
Fine-tuning [3.6526118822907594]
新しい大規模トレーニングおよびテストデータセットであるSF300で、リモートセンシングイメージの検索と分類を統一することを目指しています。
本研究では,ImageNetの事前学習ベースラインと比較して,9つのデータセットの検索性能と分類性能を体系的に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-26T11:01:30Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z) - Understanding Anomaly Detection with Deep Invertible Networks through
Hierarchies of Distributions and Features [4.25227087152716]
畳み込みネットワークは、任意の自然言語データセットでトレーニングされた場合、同様の低レベルの特徴分布を学習する。
inlier とoutlier の識別的特徴が高いレベルにある場合、異常検出は特に困難になる。
モデルバイアスとドメインが高レベルの差を検出する前に負の影響を除去する2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-18T20:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。