論文の概要: Prefilled responses enhance zero-shot detection of AI-generated images
- arxiv url: http://arxiv.org/abs/2506.11031v3
- Date: Wed, 08 Oct 2025 16:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.009253
- Title: Prefilled responses enhance zero-shot detection of AI-generated images
- Title(参考訳): 事前応答によりAI生成画像のゼロショット検出が促進される
- Authors: Zoher Kachwala, Danishjeet Singh, Danielle Yang, Filippo Menczer,
- Abstract要約: 我々は、AI生成画像のゼロショット検出のために、事前訓練された視覚言語モデル(VLM)を探索する。
人間の顔,物体,動物の合成画像を含む3つのベンチマークを用いて,VLMの性能を評価する。
特に「スタイルと合成アーティファクトを調べよう」というタスク対応のフレーズでVLM応答をプリフィルすると、3つの広く使われているオープンソースVLMのマクロF1スコアが最大24%向上する。
- 参考スコア(独自算出の注目度): 2.6581858762749997
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As AI models generate increasingly realistic images, growing concerns over potential misuse underscore the need for reliable detection. Traditional supervised detection methods depend on large, curated datasets for training and often fail to generalize to novel, out-of-domain image generators. As an alternative, we explore pre-trained Vision-Language Models (VLMs) for zero-shot detection of AI-generated images. We evaluate VLM performance on three diverse benchmarks encompassing synthetic images of human faces, objects, and animals produced by 16 different state-of-the-art image generators. While off-the-shelf VLMs perform poorly on these datasets, we find that their reasoning can be guided effectively through simple response prefilling -- a method we call Prefill-Guided Thinking (PGT). In particular, prefilling a VLM response with the task-aligned phrase "Let's examine the style and the synthesis artifacts" improves the Macro F1 scores of three widely used open-source VLMs by up to 24%.
- Abstract(参考訳): AIモデルがますます現実的なイメージを生成するにつれ、潜在的な誤用に対する懸念が高まり、信頼性の高い検出の必要性を浮き彫りにしている。
従来の教師付き検出手法は、トレーニングのための大規模でキュレートされたデータセットに依存しており、しばしば新しい領域外画像生成装置に一般化できない。
代替として、AI生成画像のゼロショット検出のための事前訓練されたビジョンランゲージモデル(VLM)を探索する。
16種類の最先端画像生成装置で生成した顔,物体,動物の合成画像を含む3種類のベンチマークを用いて,VLMの性能評価を行った。
市販のVLMはこれらのデータセットではパフォーマンスが悪く、単純な応答プリフィル(PGT)と呼ばれるメソッドによって、それらの推論を効果的にガイドできることが分かりました。
特に「スタイルと合成アーティファクトを調べよう」というタスク対応のフレーズでVLM応答をプリフィルすると、3つの広く使われているオープンソースVLMのマクロF1スコアが最大24%向上する。
関連論文リスト
- FakeReasoning: Towards Generalizable Forgery Detection and Reasoning [24.8865218866598]
フォージェリ検出・推論タスク(FDR-Task)としてのAI生成画像の検出と説明のモデル化を提案する。
10つの生成モデルにわたる100K画像を含む大規模データセットであるMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を紹介する。
また、FakeReasoningという2つの重要なコンポーネントを持つ偽検出および推論フレームワークも提案する。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。
さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-06-21T10:33:09Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。