論文の概要: IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
- arxiv url: http://arxiv.org/abs/2506.00979v1
- Date: Sun, 01 Jun 2025 12:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.240073
- Title: IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
- Title(参考訳): IVY-FAKE:画像とビデオのAIGC検出のための統一的な説明可能なフレームワークとベンチマーク
- Authors: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng,
- Abstract要約: 説明可能なマルチモーダルAIGC検出のための,新規で統一された大規模データセットであるIVY-FAKEを紹介する。
Ivy Explainable Detector (IVY-XDETECTOR)を提案する。
我々の統合視覚言語モデルは、複数の画像およびビデオ検出ベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 24.67072921674199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Artificial Intelligence Generated Content (AIGC) in visual domains has resulted in highly realistic synthetic images and videos, driven by sophisticated generative frameworks such as diffusion-based architectures. While these breakthroughs open substantial opportunities, they simultaneously raise critical concerns about content authenticity and integrity. Many current AIGC detection methods operate as black-box binary classifiers, which offer limited interpretability, and no approach supports detecting both images and videos in a unified framework. This dual limitation compromises model transparency, reduces trustworthiness, and hinders practical deployment. To address these challenges, we introduce IVY-FAKE , a novel, unified, and large-scale dataset specifically designed for explainable multimodal AIGC detection. Unlike prior benchmarks, which suffer from fragmented modality coverage and sparse annotations, IVY-FAKE contains over 150,000 richly annotated training samples (images and videos) and 18,700 evaluation examples, each accompanied by detailed natural-language reasoning beyond simple binary labels. Building on this, we propose Ivy Explainable Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture that jointly performs explainable detection for both image and video content. Our unified vision-language model achieves state-of-the-art performance across multiple image and video detection benchmarks, highlighting the significant advancements enabled by our dataset and modeling framework. Our data is publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
- Abstract(参考訳): 視覚領域における人工知能生成コンテンツ(AIGC)の急速な進歩は、拡散ベースのアーキテクチャのような高度な生成フレームワークによって駆動される、非常に現実的な合成画像とビデオを生み出した。
これらのブレークスルーは実質的な機会を開放する一方で、コンテンツの信頼性と完全性に関する重要な懸念を同時に提起する。
現在のAIGC検出方法はブラックボックスバイナリ分類器として動作しており、限定的な解釈性を提供し、統一されたフレームワークで画像とビデオの両方を検出するためのアプローチはサポートされていない。
この二重制限は、モデルの透明性を妥協し、信頼性を低下させ、実践的なデプロイメントを妨げる。
これらの課題に対処するために,説明可能なマルチモーダルAIGC検出のために設計された,新規で統一された大規模データセットであるIVY-FAKEを導入する。
断片化されたモダリティカバレッジとスパースアノテーションに苦しむ以前のベンチマークとは異なり、IVY-FAKEには15万以上の豊富な注釈付きトレーニングサンプル(画像とビデオ)と18,700の評価例が含まれており、それぞれに単純なバイナリラベル以上の詳細な自然言語推論が伴っている。
そこで我々は,AIGC検出と説明可能なアーキテクチャを統合したIvy Explainable Detector (IVY-XDETECTor) を提案する。
我々の統合ビジョン言語モデルは、複数の画像およびビデオ検出ベンチマークにまたがる最先端のパフォーマンスを実現し、データセットとモデリングフレームワークによって実現された重要な進歩を浮き彫りにする。
私たちのデータはhttps://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.comで公開されています。
関連論文リスト
- FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - FakeReasoning: Towards Generalizable Forgery Detection and Reasoning [24.8865218866598]
フォージェリ検出・推論タスク(FDR-Task)としてのAI生成画像の検出と説明のモデル化を提案する。
10つの生成モデルにわたる100K画像を含む大規模データセットであるMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を紹介する。
また、FakeReasoningという2つの重要なコンポーネントを持つ偽検出および推論フレームワークも提案する。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures [13.422002958854936]
本研究は, ポストホックな説明と半教師付き学習を組み合わせて, 異常な説明を自動的に識別するフレームワークを提案する。
提案するフレームワークは,送電網インフラ監視のための絶縁体シェルのドローンによる画像に応用される。
2つの欠陥クラスの平均分類精度は8%向上し、メンテナンス作業者は画像の15%しか手動で再分類する必要がある。
論文 参考訳(メタデータ) (2025-03-19T16:57:00Z) - Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI) [5.8695051911828555]
最近のAI生成画像検出(AGID)には、CNN検出、NPR、DM画像検出、フェイク画像検出、DIRE、LASTED、GAN画像検出、AIDE、SP、DRCT、RINE、OCC-CLIP、De-Fake、Deep Fake Detectionが含まれる。
本稿では,テキスト・ツー・イメージ・モデルによって生成される130K画像からなるベンチマークであるVisual Counter Turing Test (VCT2)を紹介する。
VCT$2$ベンチマークで前述のAGID技術の性能を評価し、AI生成の検出におけるその非効率性を強調した。
論文 参考訳(メタデータ) (2024-11-24T06:03:49Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。