Fugu-MT 論文翻訳(概要): Raising the Bar of AI-generated Image Detection with CLIP

論文の概要: Raising the Bar of AI-generated Image Detection with CLIP

arxiv url: http://arxiv.org/abs/2312.00195v1
Date: Thu, 30 Nov 2023 21:11:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 16:26:19.086843
Title: Raising the Bar of AI-generated Image Detection with CLIP
Title（参考訳）: CLIPによるAI生成画像検出のバーのライジング
Authors: Davide Cozzolino and Giovanni Poggi and Riccardo Corvi and Matthias Nie{\ss}ner and Luisa Verdoliva
Abstract要約: われわれはCLIP機能に基づいた軽量な検出戦略を開発した。単一の生成モデルからのサンプル画像のみを使用することで、CLIPベースの検出器は驚くほどの一般化能力を示す。
参考スコア（独自算出の注目度）: 11.053340674721005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aim of this work is to explore the potential of pre-trained vision-language models (VLMs) for universal detection of AI-generated images. We develop a lightweight detection strategy based on CLIP features and study its performance in a wide variety of challenging scenarios. We find that, unlike previous belief, it is neither necessary nor convenient to use a large domain-specific dataset for training. On the contrary, by using only a handful of example images from a single generative model, a CLIP-based detector exhibits a surprising generalization ability and high robustness across several different architectures, including recent commercial tools such as Dalle-3, Midjourney v5, and Firefly. We match the SoTA on in-distribution data, and improve largely above it in terms of generalization to out-of-distribution data (+6% in terms of AUC) and robustness to impaired/laundered data (+13%). Our project is available at https://grip-unina.github.io/ClipBased-SyntheticImageDetection/
Abstract（参考訳）: この研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。以前の考えとは異なり、トレーニングに巨大なドメイン固有データセットを使う必要はなく、便利でもないことが分かりました。それとは対照的に、CLIPベースの検出器は単一の生成モデルからの少数のサンプル画像のみを使用することで、Dalle-3、Midjourney v5、Fireflyといった最近の商用ツールを含む、いくつかの異なるアーキテクチャにわたる驚くべき一般化能力と高い堅牢性を示す。我々は,SoTAを分布内データと一致させ,分散外データ(AUC)への一般化(+6%)と障害/洗浄データ(+13%)に対する堅牢性(+13%)の観点から大きく改善した。私たちのプロジェクトはhttps://grip-unina.github.io/ClipBased-SyntheticImageDetection/で利用可能です。

関連論文リスト

Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval [76.86914849263168]
オープンセット3Dオブジェクト検索は、トレーニングセットを超えて、目に見えないカテゴリの3Dオブジェクトを検索することを目的とした、新たなタスクである。既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。 Describe, Adapt and Combine (DAC) というフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-29T04:11:05Z)
Task-aligned prompting improves zero-shot detection of AI-generated images by Vision-Language Models [2.005104318774207]
本研究では,AI生成画像のゼロショット検出における事前学習型視覚言語モデルの使用について検討する。タスクアライメントの促進により、より焦点を絞った推論が可能となり、微調整なしで性能が大幅に向上することを示す。以上の結果から,タスクアライメントは,VLMの潜在能力の向上と,より集中的な推論を促すことが示唆された。
論文参考訳（メタデータ） (2025-05-20T22:44:04Z)
CLIP Embeddings for AI-Generated Image Detection: A Few-Shot Study with Lightweight Classifier [0.0]
この研究は、CLIP埋め込みが本質的にAI生成の指標情報を含んでいるかどうかを調査する。パブリックなCIFAKEベンチマークの実験では、言語推論なしで95%の精度で性能が向上した。広角写真や油絵などの特定の画像タイプは、分類に重大な課題をもたらす。
論文参考訳（メタデータ） (2025-05-15T19:14:39Z)
Few-Shot Learner Generalizes Across AI-Generated Image Detection [14.069833211684715]
フーショット検出器(Few-Shot Detector, FSD)は、未知の偽画像を効果的に識別するために、特殊な距離空間を学習するAI生成画像検出器である。実験の結果、FSDのパフォーマンスは、GenImageデータセット上で平均ACC$+7.4%向上した。
論文参考訳（メタデータ） (2025-01-15T12:33:11Z)
Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文参考訳（メタデータ） (2024-09-24T08:46:13Z)
A Sanity Check for AI-generated Image Detection [49.08585395873425]
本稿では,AIによる画像検出の課題が解決されたかどうかの検査を行う。既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。複数の専門家が同時に視覚的アーチファクトやノイズパターンを抽出するAI生成画像検出装置(AID)を提案する。
論文参考訳（メタデータ） (2024-06-27T17:59:49Z)
Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文参考訳（メタデータ） (2024-06-21T10:33:09Z)
Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文参考訳（メタデータ） (2024-04-07T09:01:50Z)
Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2023-01-17T18:59:06Z)
Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文参考訳（メタデータ） (2022-12-04T07:26:24Z)
Dynamic Relevance Learning for Few-Shot Object Detection [6.550840743803705]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文参考訳（メタデータ） (2021-08-04T18:29:42Z)
CutPaste: Self-Supervised Learning for Anomaly Detection and Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。 MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文参考訳（メタデータ） (2021-04-08T19:04:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。