論文の概要: Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features
- arxiv url: http://arxiv.org/abs/2405.15343v1
- Date: Fri, 24 May 2024 08:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:21:18.305190
- Title: Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features
- Title(参考訳): どんなフェイクビデオでも見分けがつく: 大規模データとモーションのパワーを解放する
- Authors: Lichuan Ji, Yingqi Lin, Zhenhua Huang, Yan Han, Xiaogang Xu, Jiafei Wu, Chong Wang, Zhe Liu,
- Abstract要約: 我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
- 参考スコア(独自算出の注目度): 21.583246378475856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of AI-Generated Content (AIGC) has empowered the creation of remarkably realistic AI-generated videos, such as those involving Sora. However, the widespread adoption of these models raises concerns regarding potential misuse, including face video scams and copyright disputes. Addressing these concerns requires the development of robust tools capable of accurately determining video authenticity. The main challenges lie in the dataset and neural classifier for training. Current datasets lack a varied and comprehensive repository of real and generated content for effective discrimination. In this paper, we first introduce an extensive video dataset designed specifically for AI-Generated Video Detection (GenVidDet). It includes over 2.66 M instances of both real and generated videos, varying in categories, frames per second, resolutions, and lengths. The comprehensiveness of GenVidDet enables the training of a generalizable video detector. We also present the Dual-Branch 3D Transformer (DuB3D), an innovative and effective method for distinguishing between real and generated videos, enhanced by incorporating motion information alongside visual appearance. DuB3D utilizes a dual-branch architecture that adaptively leverages and fuses raw spatio-temporal data and optical flow. We systematically explore the critical factors affecting detection performance, achieving the optimal configuration for DuB3D. Trained on GenVidDet, DuB3D can distinguish between real and generated video content with 96.77% accuracy, and strong generalization capability even for unseen types.
- Abstract(参考訳): AIGC(AI-Generated Content)の開発により、Soraを含むような、驚くほどリアルなAI生成ビデオの開発が促進された。
しかし、これらのモデルの普及により、顔ビデオ詐欺や著作権侵害など、潜在的な誤用に関する懸念が高まっている。
これらの懸念に対処するためには、ビデオの信頼性を正確に判定できる堅牢なツールの開発が必要である。
主な課題は、トレーニングのためのデータセットとニューラル分類器にある。
現在のデータセットには、効果的な識別のために、リアルおよび生成されたコンテンツの多様で包括的なリポジトリが欠けている。
本稿では,AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットについて紹介する。
実際のビデオと生成されたビデオの2.66万以上のインスタンスが含まれており、カテゴリ、毎秒フレーム、解像度、長さが異なる。
GenVidDetの包括性は、一般化可能なビデオ検出器のトレーニングを可能にする。
また,DuB3D(Dual-Branch 3D Transformer)という,映像と実写映像を区別する革新的で効果的な手法を提案する。
DuB3Dは、生の時空間データと光の流れを適応的に利用し、融合するデュアルブランチアーキテクチャを使用している。
検出性能に影響を及ぼす重要な要因を系統的に検討し,DuB3Dの最適構成を実現する。
GenVidDetでトレーニングされたDuB3Dは、96.77%の精度で、実際のビデオコンテンツと生成されたビデオコンテンツを区別することができる。
関連論文リスト
- Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning [42.86270268974854]
時間的特徴は複雑で多様である。
時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。
ビデオは当然リソース集約だ。
論文 参考訳(メタデータ) (2024-08-30T07:49:57Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。
大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。
我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文 参考訳(メタデータ) (2024-05-30T05:36:12Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - Robust Pose Transfer with Dynamic Details using Neural Video Rendering [48.48929344349387]
画像翻訳に基づくダイナミックディテール生成ネットワーク(D2G-Net)を組み合わせたニューラルビデオレンダリングフレームワークを提案する。
具体的には、テクスチャ表現を新たに提示し、静的およびポーズ変化の外観特性の両方を符号化する。
我々のニューラルヒューマンビデオは、2kから4kのフレームしか持たない短いビデオでも、より明確なダイナミックディテールとより堅牢なパフォーマンスを達成することができることを実証しています。
論文 参考訳(メタデータ) (2021-06-27T03:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。