論文の概要: Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection
- arxiv url: http://arxiv.org/abs/2510.08073v1
- Date: Thu, 09 Oct 2025 11:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.027024
- Title: Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection
- Title(参考訳): AI生成ビデオ検出のための物理駆動時空間モデリング
- Authors: Shuhai Zhang, ZiHao Lian, Jiahao Yang, Daiyuan Li, Guoxuan Pang, Feng Liu, Bo Han, Shutao Li, Mingkui Tan,
- Abstract要約: 本稿では,確率流の保存原理に基づくAI駆動型ビデオ検出パラダイムを提案する。
本研究では,テストのNSG特徴と実ビデオとの間の平均離散性(MMD)を計算するNSG-VD(NSG-VD)を開発した。
- 参考スコア(独自算出の注目度): 73.51855469884195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated videos have achieved near-perfect visual realism (e.g., Sora), urgently necessitating reliable detection mechanisms. However, detecting such videos faces significant challenges in modeling high-dimensional spatiotemporal dynamics and identifying subtle anomalies that violate physical laws. In this paper, we propose a physics-driven AI-generated video detection paradigm based on probability flow conservation principles. Specifically, we propose a statistic called Normalized Spatiotemporal Gradient (NSG), which quantifies the ratio of spatial probability gradients to temporal density changes, explicitly capturing deviations from natural video dynamics. Leveraging pre-trained diffusion models, we develop an NSG estimator through spatial gradients approximation and motion-aware temporal modeling without complex motion decomposition while preserving physical constraints. Building on this, we propose an NSG-based video detection method (NSG-VD) that computes the Maximum Mean Discrepancy (MMD) between NSG features of the test and real videos as a detection metric. Last, we derive an upper bound of NSG feature distances between real and generated videos, proving that generated videos exhibit amplified discrepancies due to distributional shifts. Extensive experiments confirm that NSG-VD outperforms state-of-the-art baselines by 16.00% in Recall and 10.75% in F1-Score, validating the superior performance of NSG-VD. The source code is available at https://github.com/ZSHsh98/NSG-VD.
- Abstract(参考訳): AI生成ビデオは、ほぼ完璧なビジュアルリアリズム(例:Sora)を実現し、緊急に信頼できる検出メカニズムを必要とする。
しかし、このようなビデオの検出は、高次元時空間力学をモデル化し、物理法則に反する微妙な異常を識別する上で大きな課題に直面している。
本稿では,確率流の保存原理に基づく物理駆動型AI生成ビデオ検出パラダイムを提案する。
具体的には,空間的確率勾配と時間密度変化の比を定量化し,自然映像のダイナミックスから偏差を明示的に捉える,正規化時空間勾配(NSG)という統計手法を提案する。
事前学習拡散モデルを用いて,複雑な動きの分解を伴わずに,空間勾配近似と運動認識時間モデルを用いてNSG推定器を開発する。
そこで本研究では,テストのNSG特徴と実ビデオとの間の最大平均離散度(MMD)を算出するNSG-VD(NSG-VD)を提案する。
最後に、実写映像と実写映像のNSG特徴距離の上限を導出し、生成ビデオが分布シフトによって増幅された不一致を示すことを示す。
NSG-VDはリコールで16.00%、F1-Scoreで10.75%向上し、NSG-VDの優れた性能を検証した。
ソースコードはhttps://github.com/ZSHsh98/NSG-VDで入手できる。
関連論文リスト
- Anticipatory Fall Detection in Humans with Hybrid Directed Graph Neural Networks and Long Short-Term Memory [12.677218248209494]
本稿では,DGNN(Dynamic Graph Neural Networks)とLSTM(Long Short-Term Memory)ネットワークを組み合わせたハイブリッドモデルを提案する。
提案手法では,提案モデルに対する入力として,ビデオシーケンスから抽出したリアルタイム骨格特徴を用いる。
LSTMベースのネットワークは、次の時間のステップで人間の動きを予測し、転倒の早期発見を可能にする。
論文 参考訳(メタデータ) (2025-09-01T12:56:31Z) - VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - AI-Generated Video Detection via Perceptual Straightening [9.008575690370895]
本稿では,AI生成ビデオと自然を区別する新しい手法であるReStraVを提案する。
知覚的直交」仮説に着想を得て、モデルの表現領域における時間的曲率と段階的距離を定量化する。
我々の分析によると、AI生成ビデオは実際のビデオと比べて、曲率と距離のパターンがかなり異なる。
論文 参考訳(メタデータ) (2025-07-01T09:04:21Z) - Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems [49.11170948406405]
本研究では,単一のビデオから既知の連続制御方程式の物理パラメータを推定する教師なし手法を提案する。
Delfys75は5種類の動的システムのための75本のビデオからなる実世界のデータセットだ。
論文 参考訳(メタデータ) (2024-10-02T09:44:54Z) - SEGNO: Generalizing Equivariant Graph Neural Networks with Physical
Inductive Biases [66.61789780666727]
等変性を維持しながら, 2階連続性をGNNに組み込む方法を示す。
また、SEGNOに関する理論的知見も提供し、隣接する状態間の一意の軌跡を学習できることを強調している。
我々のモデルは最先端のベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-25T07:15:58Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - FOVQA: Blind Foveated Video Quality Assessment [1.4127304025810108]
FOVQAと呼ばれるビデオ品質評価モデルを開発した。
空間変動自然シーン統計(NSS)と自然映像統計(NVS)の新しいモデルに基づく。
FOVQAは2D LIVE-FBT-FCVRデータベース上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2021-06-24T21:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。