論文の概要: Leveraging Pre-Trained Visual Models for AI-Generated Video Detection
- arxiv url: http://arxiv.org/abs/2507.13224v1
- Date: Thu, 17 Jul 2025 15:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.555934
- Title: Leveraging Pre-Trained Visual Models for AI-Generated Video Detection
- Title(参考訳): AI生成ビデオ検出のための事前学習型ビジュアルモデルの利用
- Authors: Keerthi Veeramachaneni, Praveen Tirupattur, Amrit Singh Bedi, Mubarak Shah,
- Abstract要約: ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
- 参考スコア(独自算出の注目度): 54.88903878778194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Generative AI (GenAI) have led to significant improvements in the quality of generated visual content. As AI-generated visual content becomes increasingly indistinguishable from real content, the challenge of detecting the generated content becomes critical in combating misinformation, ensuring privacy, and preventing security threats. Although there has been substantial progress in detecting AI-generated images, current methods for video detection are largely focused on deepfakes, which primarily involve human faces. However, the field of video generation has advanced beyond DeepFakes, creating an urgent need for methods capable of detecting AI-generated videos with generic content. To address this gap, we propose a novel approach that leverages pre-trained visual models to distinguish between real and generated videos. The features extracted from these pre-trained models, which have been trained on extensive real visual content, contain inherent signals that can help distinguish real from generated videos. Using these extracted features, we achieve high detection performance without requiring additional model training, and we further improve performance by training a simple linear classification layer on top of the extracted features. We validated our method on a dataset we compiled (VID-AID), which includes around 10,000 AI-generated videos produced by 9 different text-to-video models, along with 4,000 real videos, totaling over 7 hours of video content. Our evaluation shows that our approach achieves high detection accuracy, above 90% on average, underscoring its effectiveness. Upon acceptance, we plan to publicly release the code, the pre-trained models, and our dataset to support ongoing research in this critical area.
- Abstract(参考訳): Generative AI(GenAI)の最近の進歩は、生成したビジュアルコンテンツの品質を大幅に向上させた。
AIが生成するビジュアルコンテンツが現実のコンテンツと区別しにくくなるにつれ、生成したコンテンツを検出するという課題は、誤った情報との戦い、プライバシーの確保、セキュリティ上の脅威の防止において重要になる。
AI生成画像の検出にはかなりの進歩があったが、ビデオ検出の現在の方法は、主に人間の顔を含むディープフェイクに焦点を当てている。
しかし、ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
このギャップに対処するために,事前学習された視覚モデルを用いて実映像と生成映像を区別する手法を提案する。
これらの事前訓練されたモデルから抽出された特徴は、広範囲のビジュアルコンテンツに基づいて訓練されており、生成したビデオと実際の映像を区別するのに役立つ固有の信号を含んでいる。
抽出した特徴を用いて、モデルトレーニングを必要とせずに高い検出性能を実現し、抽出した特徴の上に単純な線形分類層をトレーニングすることで、さらなる性能向上を図る。
我々は、9つの異なるテキスト・ビデオモデルによって生成された約1万のAI生成ビデオと、4,000の実際のビデオを含む、コンパイルしたデータセット(VID-AID)上で、我々の方法を検証する。
評価の結果,提案手法は平均90%以上の精度で高い検出精度を達成し,その有効性を実証した。
受け入れると、私たちは、この重要な領域で進行中の研究をサポートするために、コード、事前訓練されたモデル、データセットを公開する予定です。
関連論文リスト
- AI-Generated Video Detection via Perceptual Straightening [9.008575690370895]
本稿では,AI生成ビデオと自然を区別する新しい手法であるReStraVを提案する。
知覚的直交」仮説に着想を得て、モデルの表現領域における時間的曲率と段階的距離を定量化する。
我々の分析によると、AI生成ビデオは実際のビデオと比べて、曲率と距離のパターンがかなり異なる。
論文 参考訳(メタデータ) (2025-07-01T09:04:21Z) - BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-25T03:30:04Z) - DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [47.46972260985436]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。
本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。
提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文 参考訳(メタデータ) (2025-02-20T19:34:58Z) - Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。
我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。
我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-11T07:43:47Z) - GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。
データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。
複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文 参考訳(メタデータ) (2025-01-20T08:58:56Z) - DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。
大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。
我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文 参考訳(メタデータ) (2024-05-30T05:36:12Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。