論文の概要: Aggregating Diverse Cue Experts for AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2601.08790v1
- Date: Tue, 13 Jan 2026 18:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.326917
- Title: Aggregating Diverse Cue Experts for AI-Generated Image Detection
- Title(参考訳): AI生成画像検出のための多様なキューエキスパートの集約
- Authors: Lei Tan, Shuwei Li, Mohan Kankanhalli, Robby T. Tan,
- Abstract要約: 我々は,異なる相補的なキューを統一ネットワークに統合する新しいフレームワークであるMulti-Cue Aggregation Network (MCAN)を紹介する。
MCANは、これらのキューを動的に処理するためにエンコーダの混合アダプタを使用し、より適応的で堅牢な特徴表現を可能にしている。
GenImageデータセットでは、MCANは8つの異なるイメージジェネレータで平均7.4%まで、最高の最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 34.80872382508184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid emergence of image synthesis models poses challenges to the generalization of AI-generated image detectors. However, existing methods often rely on model-specific features, leading to overfitting and poor generalization. In this paper, we introduce the Multi-Cue Aggregation Network (MCAN), a novel framework that integrates different yet complementary cues in a unified network. MCAN employs a mixture-of-encoders adapter to dynamically process these cues, enabling more adaptive and robust feature representation. Our cues include the input image itself, which represents the overall content, and high-frequency components that emphasize edge details. Additionally, we introduce a Chromatic Inconsistency (CI) cue, which normalizes intensity values and captures noise information introduced during the image acquisition process in real images, making these noise patterns more distinguishable from those in AI-generated content. Unlike prior methods, MCAN's novelty lies in its unified multi-cue aggregation framework, which integrates spatial, frequency-domain, and chromaticity-based information for enhanced representation learning. These cues are intrinsically more indicative of real images, enhancing cross-model generalization. Extensive experiments on the GenImage, Chameleon, and UniversalFakeDetect benchmark validate the state-of-the-art performance of MCAN. In the GenImage dataset, MCAN outperforms the best state-of-the-art method by up to 7.4% in average ACC across eight different image generators.
- Abstract(参考訳): 画像合成モデルの急速な台頭は、AI生成画像検出器の一般化に課題をもたらす。
しかし、既存の手法はしばしばモデル固有の機能に依存しており、過度に適合し、一般化が不十分である。
本稿では,異なる相補的キューを統一ネットワークに統合する新しいフレームワークであるMulti-Cue Aggregation Network(MCAN)を紹介する。
MCANは、これらのキューを動的に処理するためにエンコーダの混合アダプタを使用し、より適応的で堅牢な特徴表現を可能にしている。
私たちのキューには、全体的な内容を表す入力画像自体と、エッジの詳細を強調する高周波コンポーネントが含まれています。
さらに、実画像における画像取得過程で発生するノイズ情報を正規化し、これらのノイズパターンをAI生成コンテンツとより区別しやすくする、Chromatic Inconsistency (CI) キューを導入する。
従来の手法とは異なり、MCANの新規性は、空間、周波数領域、色度に基づく情報を統合して表現学習を強化する、統一されたマルチキュー集約フレームワークにある。
これらのキューは本質的には実像を表すものであり、クロスモデル一般化を強化している。
GenImage、Chameleon、UniversalFakeDetectベンチマークの大規模な実験は、MCANの最先端性能を検証する。
GenImageデータセットでは、MCANは8つの異なるイメージジェネレータで平均7.4%まで、最高の最先端の手法より優れています。
関連論文リスト
- Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - Detecting AI-Generated Images via Distributional Deviations from Real Images [6.615773227400183]
ファインチューニング中に生成モデル固有のパターンを含むテクスチャ領域をマスクするテクスチャ・アウェア・マスキング(TAM)機構を導入する。
我々の手法は最小限の画像しか調整されず、既存の手法よりも大幅に優れており、2つのデータセットの平均精度は98.2%と94.6%に達する。
論文 参考訳(メタデータ) (2026-01-07T05:00:13Z) - Google is all you need: Semi-Supervised Transfer Learning Strategy For Light Multimodal Multi-Task Classification Model [1.8160945635344523]
本研究では,複数のラベルを単一画像にアサインする頑健なマルチラベル分類システムを提案する。
本稿では,高度な画像認識アルゴリズムを自然言語処理(NLP)モデルと組み合わせたマルチモーダル分類器を提案する。
提案する分類モデルは,画像処理のための畳み込みニューラルネットワーク(CNN)と,テキスト記述を解析するためのNLP技術を組み合わせたものである。
論文 参考訳(メタデータ) (2025-01-03T03:11:17Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。