Fugu-MT 論文翻訳(概要): Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos

論文の概要: Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos

arxiv url: http://arxiv.org/abs/2406.09601v1
Date: Thu, 13 Jun 2024 21:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 17:05:01.962565
Title: Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos
Title（参考訳）: AIが生成したビデオのロバストな検出を目指す
Authors: Qingyuan Liu, Pengyuan Shi, Yun-Yun Tsai, Chengzhi Mao, Junfeng Yang,
Abstract要約: 高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 16.34393937800271
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The impressive achievements of generative models in creating high-quality videos have raised concerns about digital integrity and privacy vulnerabilities. Recent works to combat Deepfakes videos have developed detectors that are highly accurate at identifying GAN-generated samples. However, the robustness of these detectors on diffusion-generated videos generated from video creation tools (e.g., SORA by OpenAI, Runway Gen-2, and Pika, etc.) is still unexplored. In this paper, we propose a novel framework for detecting videos synthesized from multiple state-of-the-art (SOTA) generative models, such as Stable Video Diffusion. We find that the SOTA methods for detecting diffusion-generated images lack robustness in identifying diffusion-generated videos. Our analysis reveals that the effectiveness of these detectors diminishes when applied to out-of-domain videos, primarily because they struggle to track the temporal features and dynamic variations between frames. To address the above-mentioned challenge, we collect a new benchmark video dataset for diffusion-generated videos using SOTA video creation tools. We extract representation within explicit knowledge from the diffusion model for video frames and train our detector with a CNN + LSTM architecture. The evaluation shows that our framework can well capture the temporal features between frames, achieves 93.7% detection accuracy for in-domain videos, and improves the accuracy of out-domain videos by up to 16 points.
Abstract（参考訳）: 高品質のビデオ制作における生成モデルの素晴らしい成果は、デジタルの完全性とプライバシーの脆弱性に関する懸念を引き起こしている。ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。しかし、ビデオ生成ツール(OpenAIによるSORA、Runway Gen-2、Pikaなど)から生成された拡散生成ビデオに対するこれらの検出器の堅牢性はまだ明らかにされていない。本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。拡散生成画像検出のためのSOTA法では,拡散生成映像の識別にロバスト性が欠如していることが判明した。分析の結果,これらの検出器の有効性は,フレーム間の時間的特徴や動的変動の追跡に苦慮しているため,ドメイン外ビデオに適用した場合に低下することが明らかとなった。上記の課題に対処するため,SOTAビデオ作成ツールを用いて拡散生成ビデオのための新しいベンチマークビデオデータセットを収集する。ビデオフレームの拡散モデルから明示的な知識内で表現を抽出し,CNN+LSTMアーキテクチャを用いて検出器を訓練する。評価の結果,フレーム間の時間的特徴をよく捉え,ドメイン内ビデオの93.7%の検出精度を達成し,ドメイン外ビデオの精度を最大16ポイント向上できることがわかった。

関連論文リスト

GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文参考訳（メタデータ） (2025-01-20T08:58:56Z)
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文参考訳（メタデータ） (2024-12-05T18:53:04Z)
What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文参考訳（メタデータ） (2024-06-27T23:03:58Z)
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文参考訳（メタデータ） (2024-05-30T05:36:12Z)
Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文参考訳（メタデータ） (2024-05-07T09:00:09Z)
CapST: An Enhanced and Lightweight Model Attribution Approach for Synthetic Videos [9.209808258321559]
本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
論文参考訳（メタデータ） (2023-11-07T08:05:09Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Anomaly detection in surveillance videos using transformer based attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文参考訳（メタデータ） (2022-06-03T12:19:39Z)
Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文参考訳（メタデータ） (2022-02-21T23:24:01Z)
Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features [13.033517345182728]
Deepfakesは、ターゲットの顔を元の顔にビデオで移植する悪質なテクニックの1つだ。これまでのDeepfakesビデオ検出の取り組みは主に外観機能に焦点を当てており、高度な操作によってバイパスされるリスクがある。高精度な幾何学的特徴を時間的モデル化してDeepfakesビデオを検出するための効率的かつ堅牢なフレームワークLRNetを提案します。
論文参考訳（メタデータ） (2021-04-09T16:57:55Z)
Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文参考訳（メタデータ） (2020-11-05T11:34:12Z)
Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。 448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文参考訳（メタデータ） (2020-07-07T15:36:26Z)
Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文参考訳（メタデータ） (2020-03-21T02:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。