論文の概要: DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark
- arxiv url: http://arxiv.org/abs/2405.19707v1
- Date: Thu, 30 May 2024 05:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 17:57:08.513914
- Title: DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark
- Title(参考訳): DeMamba: 数百万台のGenVideoベンチマークでAIが生成したビデオ検出
- Authors: Haoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li,
- Abstract要約: 我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。
大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。
我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
- 参考スコア(独自算出の注目度): 38.604684882464944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, video generation techniques have advanced rapidly. Given the popularity of video content on social media platforms, these models intensify concerns about the spread of fake information. Therefore, there is a growing demand for detectors capable of distinguishing between fake AI-generated videos and mitigating the potential harm caused by fake information. However, the lack of large-scale datasets from the most advanced video generators poses a barrier to the development of such detectors. To address this gap, we introduce the first AI-generated video detection dataset, GenVideo. It features the following characteristics: (1) a large volume of videos, including over one million AI-generated and real videos collected; (2) a rich diversity of generated content and methodologies, covering a broad spectrum of video categories and generation techniques. We conducted extensive studies of the dataset and proposed two evaluation methods tailored for real-world-like scenarios to assess the detectors' performance: the cross-generator video classification task assesses the generalizability of trained detectors on generators; the degraded video classification task evaluates the robustness of detectors to handle videos that have degraded in quality during dissemination. Moreover, we introduced a plug-and-play module, named Detail Mamba (DeMamba), designed to enhance the detectors by identifying AI-generated videos through the analysis of inconsistencies in temporal and spatial dimensions. Our extensive experiments demonstrate DeMamba's superior generalizability and robustness on GenVideo compared to existing detectors. We believe that the GenVideo dataset and the DeMamba module will significantly advance the field of AI-generated video detection. Our code and dataset will be aviliable at \url{https://github.com/chenhaoxing/DeMamba}.
- Abstract(参考訳): 近年,映像生成技術は急速に進歩している。
ソーシャルメディアプラットフォームでの動画コンテンツの人気を考えると、これらのモデルは偽情報の拡散に対する懸念を強めている。
したがって、偽のAI生成ビデオを区別し、偽の情報による潜在的な害を軽減できる検出器の需要が高まっている。
しかし、最も先進的なビデオジェネレータからの大規模なデータセットの欠如は、そのような検出器の開発に障壁をもたらす。
このギャップに対処するために、最初のAI生成ビデオ検出データセットであるGenVideoを紹介する。
1)AIが生成した100万以上の実ビデオを含む大量のビデオ、(2)ビデオカテゴリと生成テクニックの幅広い範囲をカバーする、生成されたコンテンツと方法論の豊富な多様性。
そこで,本研究では,実世界のシナリオに合わせた2つの評価手法を提案する。クロスジェネレータビデオ分類タスクは,ジェネレータ上での訓練された検出器の一般化性を評価する。
さらに,デテール・マンバ (DeMamba, DeMamba) というプラグイン・アンド・プレイ・モジュールを導入し,時間次元と空間次元の矛盾を解析することにより,AI生成した映像を識別することで検出器の強化を図った。
我々の大規模な実験は、既存の検出器と比較して、DeMambaのGenVideoにおける優れた一般化性とロバスト性を示している。
我々は、GenVideoデータセットとDeMambaモジュールがAI生成ビデオ検出の分野を大幅に前進させると考えている。
コードとデータセットは \url{https://github.com/chenhaoxing/DeMamba} でアビリザブルになります。
関連論文リスト
- What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。
ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。
本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T21:52:49Z) - Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文 参考訳(メタデータ) (2024-05-24T08:26:04Z) - Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。
本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。
現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文 参考訳(メタデータ) (2024-05-07T09:00:09Z) - AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。
モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文 参考訳(メタデータ) (2024-03-25T11:26:18Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - A new Video Synopsis Based Approach Using Stereo Camera [0.5801044612920815]
物体に基づく教師なし学習を用いた新しい異常検出法を開発した。
この方法を用いて、映像データを画素として処理し、その結果をビデオセグメントとして生成する。
私たちが開発したモデルは、単眼カメラとデュアルカメラシステムで別々にテストされ、検証されている。
論文 参考訳(メタデータ) (2021-06-23T12:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。