論文の概要: RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification
- arxiv url: http://arxiv.org/abs/2508.03967v1
- Date: Tue, 05 Aug 2025 23:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.473078
- Title: RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification
- Title(参考訳): RAVID: Retrieval-Augmented Visual Detection:AI生成画像識別のための知識駆動型アプローチ
- Authors: Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdelmalik Taleb-Ahmed, Abdenour Hadid,
- Abstract要約: RAVIDは、視覚検索強化生成(RAG)を活用するAI生成画像検出のための最初のフレームワークである
提案手法では,表現学習を改善するためにカテゴリ関連プロンプトを付加した細調整のCLIP画像エンコーダであるRAVID CLIPを利用する。
RAVIDの平均精度は80.27%で、最先端のC2P-CLIPでは63.44%である。
- 参考スコア(独自算出の注目度): 14.448350657613368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce RAVID, the first framework for AI-generated image detection that leverages visual retrieval-augmented generation (RAG). While RAG methods have shown promise in mitigating factual inaccuracies in foundation models, they have primarily focused on text, leaving visual knowledge underexplored. Meanwhile, existing detection methods, which struggle with generalization and robustness, often rely on low-level artifacts and model-specific features, limiting their adaptability. To address this, RAVID dynamically retrieves relevant images to enhance detection. Our approach utilizes a fine-tuned CLIP image encoder, RAVID CLIP, enhanced with category-related prompts to improve representation learning. We further integrate a vision-language model (VLM) to fuse retrieved images with the query, enriching the input and improving accuracy. Given a query image, RAVID generates an embedding using RAVID CLIP, retrieves the most relevant images from a database, and combines these with the query image to form an enriched input for a VLM (e.g., Qwen-VL or Openflamingo). Experiments on the UniversalFakeDetect benchmark, which covers 19 generative models, show that RAVID achieves state-of-the-art performance with an average accuracy of 93.85%. RAVID also outperforms traditional methods in terms of robustness, maintaining high accuracy even under image degradations such as Gaussian blur and JPEG compression. Specifically, RAVID achieves an average accuracy of 80.27% under degradation conditions, compared to 63.44% for the state-of-the-art model C2P-CLIP, demonstrating consistent improvements in both Gaussian blur and JPEG compression scenarios. The code will be publicly available upon acceptance.
- Abstract(参考訳): 本稿では,視覚検索拡張生成(RAG)を利用したAI生成画像検出のための最初のフレームワークであるRAVIDを紹介する。
RAG法は、基礎モデルの事実的不正確性を緩和する上で有望であるが、それらは主にテキストに焦点を当てており、視覚的知識は未解明のままである。
一方、一般化と堅牢性に苦しむ既存の検出方法は、しばしば低レベルのアーティファクトとモデル固有の特徴に依存し、適応性を制限する。
この問題に対処するため、RAVIDは関連する画像を動的に検索して検出を強化する。
提案手法では,表現学習を改善するためにカテゴリ関連プロンプトを付加した細調整のCLIP画像エンコーダであるRAVID CLIPを利用する。
我々はさらに視覚言語モデル(VLM)を統合して、検索した画像とクエリを融合し、入力を豊かにし、精度を向上させる。
クエリ画像が与えられたら、RAVID CLIPを使用して埋め込みを生成し、データベースから最も関連性の高い画像を検索し、クエリ画像と組み合わせて、VLM(例えば、Qwen-VLまたはOpenflamingo)のリッチな入力を生成する。
19の生成モデルをカバーするUniversalFakeDetectベンチマークの実験は、RAVIDが平均93.85%の精度で最先端のパフォーマンスを達成することを示した。
RAVIDはロバスト性の観点からも従来の手法よりも優れており、ガウスのぼかしやJPEG圧縮のような画像劣化でも高い精度を維持している。
特に、RAVIDは劣化条件下では平均80.27%の精度を達成しており、最先端のC2P-CLIPでは63.44%であり、ガウス的ぼかしとJPEG圧縮のシナリオで一貫した改善が示されている。
コードは受理時に公開される。
関連論文リスト
- Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [30.415427474641813]
本稿では,多様なテスト画像の処理の柔軟性を向上する,画像適応型プロンプト学習(IAPL)という新しいフレームワークを提案する。
これは2つの適応モジュール、すなわち条件情報学習器と信頼駆動適応予測からなる。
実験の結果、IAPLは最先端のパフォーマンスを達成しており、95.61%と96.7%は広く使われているUniversalFakeDetectとGenImageの2つのデータセットの精度を示している。
論文 参考訳(メタデータ) (2025-08-03T05:41:24Z) - IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection [24.67072921674199]
説明可能なマルチモーダルAIGC検出のための,新規で統一された大規模データセットであるIVY-FAKEを紹介する。
Ivy Explainable Detector (IVY-XDETECTOR)を提案する。
我々の統合視覚言語モデルは、複数の画像およびビデオ検出ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-01T12:20:22Z) - FakeReasoning: Towards Generalizable Forgery Detection and Reasoning [24.8865218866598]
フォージェリ検出・推論タスク(FDR-Task)としてのAI生成画像の検出と説明のモデル化を提案する。
10つの生成モデルにわたる100K画像を含む大規模データセットであるMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を紹介する。
また、FakeReasoningという2つの重要なコンポーネントを持つ偽検出および推論フレームワークも提案する。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
我々はAI生成画像を検出するAI生成画像検出装置(AI生成画像検出装置)を提案する。
AIDEは最先端の手法を+3.5%、+4.6%改善した。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。
さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-06-21T10:33:09Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。