論文の概要: Multimodal Conditional Information Bottleneck for Generalizable AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2505.15217v1
- Date: Wed, 21 May 2025 07:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.202824
- Title: Multimodal Conditional Information Bottleneck for Generalizable AI-Generated Image Detection
- Title(参考訳): 一般化可能なAI生成画像検出のためのマルチモーダル・コンディショナル・インフォメーション・ブートネック
- Authors: Haotian Qin, Dongliang Chang, Yueying Gao, Bingyao Yu, Lei Chen, Zhanyu Ma,
- Abstract要約: InfoFDはテキスト誘導型AI生成画像検出フレームワークである。
TGCIB(Text-Guided Conditional Information Bottleneck)とDTO(Dynamic Text Orthogonalization)の2つの重要なコンポーネントを紹介する。
我々のモデルは、GenImageデータセットと最新の生成モデル上で、例外的な一般化性能を達成する。
- 参考スコア(独自算出の注目度): 24.512663807403186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although existing CLIP-based methods for detecting AI-generated images have achieved promising results, they are still limited by severe feature redundancy, which hinders their generalization ability. To address this issue, incorporating an information bottleneck network into the task presents a straightforward solution. However, relying solely on image-corresponding prompts results in suboptimal performance due to the inherent diversity of prompts. In this paper, we propose a multimodal conditional bottleneck network to reduce feature redundancy while enhancing the discriminative power of features extracted by CLIP, thereby improving the model's generalization ability. We begin with a semantic analysis experiment, where we observe that arbitrary text features exhibit lower cosine similarity with real image features than with fake image features in the CLIP feature space, a phenomenon we refer to as "bias". Therefore, we introduce InfoFD, a text-guided AI-generated image detection framework. InfoFD consists of two key components: the Text-Guided Conditional Information Bottleneck (TGCIB) and Dynamic Text Orthogonalization (DTO). TGCIB improves the generalizability of learned representations by conditioning on both text and class modalities. DTO dynamically updates weighted text features, preserving semantic information while leveraging the global "bias". Our model achieves exceptional generalization performance on the GenImage dataset and latest generative models. Our code is available at https://github.com/Ant0ny44/InfoFD.
- Abstract(参考訳): 既存のCLIPベースのAI生成画像検出手法は有望な結果を得たが、それでもその一般化能力を阻害する深刻な特徴冗長性によって制限されている。
この問題に対処するため、情報ボトルネックネットワークをタスクに組み込むことで、簡単な解決策が提示される。
しかし、画像対応プロンプトのみに依存すると、プロンプト固有の多様性のため、最適以下のパフォーマンスが得られる。
本稿では,CLIPが抽出した特徴の識別能力を高めつつ,特徴冗長性を低減し,モデルの一般化能力を向上させるマルチモーダル条件付きボトルネックネットワークを提案する。
意味分析実験から始めると、任意のテキスト特徴がCLIP特徴空間における偽画像特徴よりも、実際の画像特徴とコサインの類似性が低いことを観察する。
そこで本研究では,テキスト誘導型AI生成画像検出フレームワークInfoFDを紹介する。
InfoFD は Text-Guided Conditional Information Bottleneck (TGCIB) と Dynamic Text Orthogonalization (DTO) の2つの重要なコンポーネントで構成されている。
TGCIBは、テキストとクラスモダリティの両方に条件付けすることで、学習した表現の一般化性を向上させる。
DTOは重み付きテキスト機能を動的に更新し、グローバルな"バイアス"を活用しながら意味情報を保存する。
我々のモデルは、GenImageデータセットと最新の生成モデル上で、例外的な一般化性能を達成する。
私たちのコードはhttps://github.com/Ant0ny44/InfoFD.comで利用可能です。
関連論文リスト
- Exploring the Collaborative Advantage of Low-level Information on Generalizable AI-Generated Image Detection [46.5480496076675]
既存のAI生成画像検出手法では、単一の低レベル情報しか考慮していない。
異なる低レベル情報はしばしば異なる種類の偽造物に対する一般化能力を示す。
適応型低レベルエキスパートインジェクションフレームワークを提案し、バックボーンネットワークが異なる低レベル情報から知識を受け入れて学習できるようにする。
論文 参考訳(メタデータ) (2025-04-01T06:38:08Z) - Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning [11.015244501780078]
本稿では,動的グラフ精錬法(SFDR)を用いた意味空間的特徴融合を提案する。
提案手法は,生成した記述の質を著しく向上させる。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-30T14:14:41Z) - RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations [0.0]
条件付きアフィン変換(CAT)は、画像中のコンテンツ合成を制御するために、GANの異なる層に適用されている。
まず、各レイヤがグローバル情報にアクセスできるようにするために、CATとRAT(Recurrent Neural Network)をモデル化する。
次に、リカレントニューラルネットワークにおける情報忘れの特性を軽減するために、RAT間のシャッフルアテンションを導入する。
論文 参考訳(メタデータ) (2024-05-13T18:49:18Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。