論文の概要: MiraGe: Multimodal Discriminative Representation Learning for Generalizable AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2508.01525v1
- Date: Sun, 03 Aug 2025 00:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.92409
- Title: MiraGe: Multimodal Discriminative Representation Learning for Generalizable AI-Generated Image Detection
- Title(参考訳): MiraGe:汎用AI生成画像検出のためのマルチモーダル識別表現学習
- Authors: Kuo Shi, Jie Lu, Shanshan Ye, Guangquan Zhang, Zhen Fang,
- Abstract要約: 一般化可能なAI生成画像検出のためのマルチモーダル識別学習(MiraGegenerator)を提案する。
テキスト埋め込みをセマンティックアンカーとして活用し、効果的な識別的表現学習を実現するために、マルチモーダル・プロンプト・ラーニングを適用した。
MiraGegeneratorは最先端のパフォーマンスを実現し、Soraのような目に見えないジェネレータに対してさえ堅牢性を維持している。
- 参考スコア(独自算出の注目度): 32.662682253295486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative models have highlighted the need for robust detectors capable of distinguishing real images from AI-generated images. While existing methods perform well on known generators, their performance often declines when tested with newly emerging or unseen generative models due to overlapping feature embeddings that hinder accurate cross-generator classification. In this paper, we propose Multimodal Discriminative Representation Learning for Generalizable AI-generated Image Detection (MiraGe), a method designed to learn generator-invariant features. Motivated by theoretical insights on intra-class variation minimization and inter-class separation, MiraGe tightly aligns features within the same class while maximizing separation between classes, enhancing feature discriminability. Moreover, we apply multimodal prompt learning to further refine these principles into CLIP, leveraging text embeddings as semantic anchors for effective discriminative representation learning, thereby improving generalizability. Comprehensive experiments across multiple benchmarks show that MiraGe achieves state-of-the-art performance, maintaining robustness even against unseen generators like Sora.
- Abstract(参考訳): 生成モデルの最近の進歩は、AI生成画像と実際の画像を区別できる堅牢な検出器の必要性を強調している。
既存の手法は既知のジェネレータでよく機能するが、新しい生成モデルや見えない生成モデルでテストすると、正確なクロスジェネレータ分類を妨げる重複した特徴埋め込みによって性能が低下することが多い。
本稿では,汎用AI生成画像検出のためのマルチモーダル識別表現学習(MiraGe)を提案する。
MiraGeはクラス内変異の最小化とクラス間分離に関する理論的知見によって動機付けられ、クラス間の分離を最大化し、特徴識別性を高める。
さらに,これらの原理をさらに改良するためにマルチモーダル・プロンプト・ラーニングを適用し,テキスト埋め込みをセマンティックアンカーとして活用して効果的な識別表現学習を実現し,一般化性を向上させる。
複数のベンチマークにわたる総合的な実験によると、MiraGeは最先端のパフォーマンスを実現し、Soraのような目に見えないジェネレータに対してさえ堅牢性を維持している。
関連論文リスト
- NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Diverse and Tailored Image Generation for Zero-shot Multi-label Classification [3.354528906571718]
ゼロショットのマルチラベル分類は、人間のアノテーションを使わずに、目に見えないラベルで予測を実行する能力について、かなりの注目を集めている。
一般的なアプローチでは、目に見えないものに対する不完全なプロキシとしてクラスをよく使用します。
本稿では,未確認ラベル上でのプロキシレストレーニングに適したトレーニングセットを構築するために,合成データを生成する,革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2024-04-04T01:34:36Z) - Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - Latent Space Energy-based Model for Fine-grained Open Set Recognition [46.0388856095674]
微細なオープンセット認識(FineOSR)は、未知のクラスのイメージを拒絶しながら、微妙な外観の違いを持つクラスに属する画像を認識することを目的としている。
生成モデルの一種として、エネルギーベースモデル(EBM)は、生成的タスクと識別的タスクのハイブリッドモデリングのポテンシャルである。
本稿では,OSRの精密な視覚空間におけるエネルギーに基づく事前分布を用いた低次元潜伏空間について検討する。
論文 参考訳(メタデータ) (2023-09-19T16:00:09Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Discriminative-Generative Representation Learning for One-Class Anomaly
Detection [22.500931323372303]
生成法と識別法を組み合わせた自己教師型学習フレームワークを提案する。
提案手法は,複数のベンチマークデータセットにおいて,最先端の処理性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-27T11:46:15Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。