Fugu-MT 論文翻訳(概要): DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

論文の概要: DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

arxiv url: http://arxiv.org/abs/2405.19707v1
Date: Thu, 30 May 2024 05:36:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 17:57:08.513914
Title: DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark
Title（参考訳）: DeMamba: 数百万台のGenVideoベンチマークでAIが生成したビデオ検出
Authors: Haoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li,
Abstract要約: 我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
参考スコア（独自算出の注目度）: 38.604684882464944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, video generation techniques have advanced rapidly. Given the popularity of video content on social media platforms, these models intensify concerns about the spread of fake information. Therefore, there is a growing demand for detectors capable of distinguishing between fake AI-generated videos and mitigating the potential harm caused by fake information. However, the lack of large-scale datasets from the most advanced video generators poses a barrier to the development of such detectors. To address this gap, we introduce the first AI-generated video detection dataset, GenVideo. It features the following characteristics: (1) a large volume of videos, including over one million AI-generated and real videos collected; (2) a rich diversity of generated content and methodologies, covering a broad spectrum of video categories and generation techniques. We conducted extensive studies of the dataset and proposed two evaluation methods tailored for real-world-like scenarios to assess the detectors' performance: the cross-generator video classification task assesses the generalizability of trained detectors on generators; the degraded video classification task evaluates the robustness of detectors to handle videos that have degraded in quality during dissemination. Moreover, we introduced a plug-and-play module, named Detail Mamba (DeMamba), designed to enhance the detectors by identifying AI-generated videos through the analysis of inconsistencies in temporal and spatial dimensions. Our extensive experiments demonstrate DeMamba's superior generalizability and robustness on GenVideo compared to existing detectors. We believe that the GenVideo dataset and the DeMamba module will significantly advance the field of AI-generated video detection. Our code and dataset will be aviliable at \url{https://github.com/chenhaoxing/DeMamba}.
Abstract（参考訳）: 近年,映像生成技術は急速に進歩している。ソーシャルメディアプラットフォームでの動画コンテンツの人気を考えると、これらのモデルは偽情報の拡散に対する懸念を強めている。したがって、偽のAI生成ビデオを区別し、偽の情報による潜在的な害を軽減できる検出器の需要が高まっている。しかし、最も先進的なビデオジェネレータからの大規模なデータセットの欠如は、そのような検出器の開発に障壁をもたらす。このギャップに対処するために、最初のAI生成ビデオ検出データセットであるGenVideoを紹介する。 1)AIが生成した100万以上の実ビデオを含む大量のビデオ、(2)ビデオカテゴリと生成テクニックの幅広い範囲をカバーする、生成されたコンテンツと方法論の豊富な多様性。そこで,本研究では,実世界のシナリオに合わせた2つの評価手法を提案する。クロスジェネレータビデオ分類タスクは,ジェネレータ上での訓練された検出器の一般化性を評価する。さらに,デテール・マンバ (DeMamba, DeMamba) というプラグイン・アンド・プレイ・モジュールを導入し,時間次元と空間次元の矛盾を解析することにより,AI生成した映像を識別することで検出器の強化を図った。我々の大規模な実験は、既存の検出器と比較して、DeMambaのGenVideoにおける優れた一般化性とロバスト性を示している。我々は、GenVideoデータセットとDeMambaモジュールがAI生成ビデオ検出の分野を大幅に前進させると考えている。コードとデータセットは \url{https://github.com/chenhaoxing/DeMamba} でアビリザブルになります。

関連論文リスト

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning [66.51617619673587]
AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別する,特殊な大規模言語モデル(MLLM)であるSkyraを紹介する。この目的を達成するために、我々は、人間のアノテーションを微粒化した最初の大規模AI生成ビデオデータセットである、Supervised Fine-Tuning (SFT)のためのViF-CoT-4Kを構築した。次に,モデルの時間的知覚,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
論文参考訳（メタデータ） (2025-12-17T18:48:26Z)
Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-17T15:36:39Z)
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。 DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文参考訳（メタデータ） (2025-06-13T13:39:53Z)
GenWorld: Towards Detecting AI-generated Real-world Simulation Videos [79.98542193919957]
GenWorldは、AI生成ビデオ検出のための大規模で高品質で実世界のシミュレーションデータセットである。実世界のAI生成ビデオ検出のための強力な基準として,マルチビュー一貫性を活用するモデルであるSpannDetectorを提案する。
論文参考訳（メタデータ） (2025-06-12T17:59:33Z)
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [47.46972260985436]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。 BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文参考訳（メタデータ） (2025-05-19T02:06:43Z)
Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文参考訳（メタデータ） (2025-02-11T07:43:47Z)
GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文参考訳（メタデータ） (2025-01-20T08:58:56Z)
What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文参考訳（メタデータ） (2024-06-27T23:03:58Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-13T21:52:49Z)
Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。 DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文参考訳（メタデータ） (2024-05-24T08:26:04Z)
Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文参考訳（メタデータ） (2024-05-07T09:00:09Z)
AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文参考訳（メタデータ） (2024-03-25T11:26:18Z)
Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。まず,964のプロンプトからなるスケーラブルなデータセットを提案する。第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文参考訳（メタデータ） (2024-02-03T08:52:06Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Video Infringement Detection via Feature Disentanglement and Mutual Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文参考訳（メタデータ） (2023-09-13T10:53:12Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
A new Video Synopsis Based Approach Using Stereo Camera [0.5801044612920815]
物体に基づく教師なし学習を用いた新しい異常検出法を開発した。この方法を用いて、映像データを画素として処理し、その結果をビデオセグメントとして生成する。私たちが開発したモデルは、単眼カメラとデュアルカメラシステムで別々にテストされ、検証されている。
論文参考訳（メタデータ） (2021-06-23T12:57:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。