論文の概要: D3: Training-Free AI-Generated Video Detection Using Second-Order Features
- arxiv url: http://arxiv.org/abs/2508.00701v2
- Date: Tue, 05 Aug 2025 03:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.101126
- Title: D3: Training-Free AI-Generated Video Detection Using Second-Order Features
- Title(参考訳): D3:2次特徴を用いたトレーニング不要AI生成ビデオ検出
- Authors: Chende Zheng, Ruiqi suo, Chenhao Lin, Zhengyu Zhao, Le Yang, Shuai Liu, Minghui Yang, Cong Wang, Chao Shen,
- Abstract要約: 差分検出法(D3)は,合成ビデオの新しいトレーニング不要検出法である。
4つのオープンソースデータセット上でのD3の優位性を検証する。
- 参考スコア(独自算出の注目度): 17.253600093886277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of video generation techniques, such as Sora, has made it increasingly easy to produce high-fidelity AI-generated videos, raising public concern over the dissemination of synthetic content. However, existing detection methodologies remain limited by their insufficient exploration of temporal artifacts in synthetic videos. To bridge this gap, we establish a theoretical framework through second-order dynamical analysis under Newtonian mechanics, subsequently extending the Second-order Central Difference features tailored for temporal artifact detection. Building on this theoretical foundation, we reveal a fundamental divergence in second-order feature distributions between real and AI-generated videos. Concretely, we propose Detection by Difference of Differences (D3), a novel training-free detection method that leverages the above second-order temporal discrepancies. We validate the superiority of our D3 on 4 open-source datasets (Gen-Video, VideoPhy, EvalCrafter, VidProM), 40 subsets in total. For example, on GenVideo, D3 outperforms the previous best method by 10.39% (absolute) mean Average Precision. Additional experiments on time cost and post-processing operations demonstrate D3's exceptional computational efficiency and strong robust performance. Our code is available at https://github.com/Zig-HS/D3.
- Abstract(参考訳): Soraのようなビデオ生成技術の進化により、高忠実度AI生成ビデオの作成がますます容易になり、合成コンテンツの普及に対する一般の関心が高まっている。
しかし、既存の検出手法は、合成ビデオにおける時間的アーティファクトの探索が不十分なため、依然として制限されている。
このギャップを埋めるために、ニュートン力学の下での2次力学解析を通じて理論的枠組みを確立し、その後、時間的アーティファクト検出に適した2次中央差分特徴を拡張した。
この理論の基礎の上に構築され、リアルビデオとAI生成ビデオの2階特徴分布の根本的な相違を明らかにする。
具体的には,上記の2次時間差を利用した学習自由度検出法である差分検出法(D3)を提案する。
我々は,4つのオープンソースデータセット(Gen-Video, VideoPhy, EvalCrafter, VidProM)に対するD3の優位性を検証した。
例えば、GenVideoでは、D3は平均精度を10.39%(絶対)で上回っている。
時間コストと後処理操作に関するさらなる実験は、D3の例外的な計算効率と強靭な性能を実証している。
私たちのコードはhttps://github.com/Zig-HS/D3.comで公開されています。
関連論文リスト
- DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection [14.586314545834934]
本稿では,FakeSTormerと呼ばれる微細なディープフェイク映像検出手法を提案する。
具体的には、2つの補助分岐を組み込んだマルチタスク学習フレームワークを導入する。
また、微妙な時間的アーティファクトを持つ擬似フェイクビデオを生成するビデオレベルの合成戦略を提案する。
論文 参考訳(メタデータ) (2025-01-02T10:21:34Z) - Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning [41.30923253467854]
時間的特徴は複雑で多様である。
時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。
ビデオは当然リソース集約だ。
論文 参考訳(メタデータ) (2024-08-30T07:49:57Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文 参考訳(メタデータ) (2024-05-24T08:26:04Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。
モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文 参考訳(メタデータ) (2024-03-25T11:26:18Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。