論文の概要: MPF-Net: Exposing High-Fidelity AI-Generated Video Forgeries via Hierarchical Manifold Deviation and Micro-Temporal Fluctuations
- arxiv url: http://arxiv.org/abs/2601.21408v2
- Date: Mon, 02 Feb 2026 07:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.706676
- Title: MPF-Net: Exposing High-Fidelity AI-Generated Video Forgeries via Hierarchical Manifold Deviation and Micro-Temporal Fluctuations
- Title(参考訳): MPF-Net:階層的マニフォールド偏差とマイクロテンポラルゆらぎによる高忠実度AI生成ビデオファジトリーの公開
- Authors: Xinan He, Kaiqing Lin, Yue Zhou, Jiaming Zhong, Wei Ye, Wenhui Yi, Bing Fan, Feng Ding, Haodong Li, Bo Cao, Bin Li,
- Abstract要約: AI生成ビデオは、物理的記録ではなく、基本的には多様体適合プロセスの産物である、と我々は主張する。
逐次フィルタリングプロセスとして機能する階層型デュアルパスフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.653030791232364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of video generation models such as Veo and Wan, the visual quality of synthetic content has reached a level where macro-level semantic errors and temporal inconsistencies are no longer prominent. However, this does not imply that the distinction between real and cutting-edge high-fidelity fake is untraceable. We argue that AI-generated videos are essentially products of a manifold-fitting process rather than a physical recording. Consequently, the pixel composition logic of consecutive adjacent frames residual in AI videos exhibits a structured and homogenous characteristic. We term this phenomenon `Manifold Projection Fluctuations' (MPF). Driven by this insight, we propose a hierarchical dual-path framework that operates as a sequential filtering process. The first, the Static Manifold Deviation Branch, leverages the refined perceptual boundaries of Large-Scale Vision Foundation Models (VFMs) to capture residual spatial anomalies or physical violations that deviate from the natural real-world manifold (off-manifold). For the remaining high-fidelity videos that successfully reside on-manifold and evade spatial detection, we introduce the Micro-Temporal Fluctuation Branch as a secondary, fine-grained filter. By analyzing the structured MPF that persists even in visually perfect sequences, our framework ensures that forgeries are exposed regardless of whether they manifest as global real-world manifold deviations or subtle computational fingerprints.
- Abstract(参考訳): VeoやWanといったビデオ生成モデルの急速な進歩により、合成コンテンツの視覚的品質はマクロレベルの意味的誤りや時間的矛盾がもはや顕著でないレベルに達している。
しかし、これは、本物と最先端の高忠実な偽物の区別が追跡不可能であることを意味するものではない。
AI生成ビデオは、物理的記録ではなく、基本的には多様体適合プロセスの産物である、と我々は主張する。
その結果、AIビデオに残る連続した隣接フレームの画素合成ロジックは、構造化され、均質な特性を示す。
この現象をMPF(Manifold Projection Fluctuations)と呼ぶ。
この知見に基づいて、シーケンシャルなフィルタリングプロセスとして機能する階層的なデュアルパスフレームワークを提案する。
第1の静的マニフォールド偏差分枝は、大規模視覚基盤モデル(VFM)の洗練された知覚境界を利用して、自然の現実世界の多様体(オフ・マニフォールド)から逸脱する残留的な空間異常や物理的違反を捉えている。
本研究では, マイクロテンポラル変動分枝を二次的, 微細なフィルタとして導入する。
我々のフレームワークは、視覚的に完璧なシーケンスでも持続する構造化MPFを解析することにより、グローバルな実世界の多様体偏差や微妙な計算指紋として現れるかどうかに関わらず、偽造が露呈されることを保証します。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting [64.42884719282323]
InpaintHumanは、モノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。
我々のアプローチは、アイデンティティの忠実性を保証するために、直接ピクセルレベルの監視を採用する。
論文 参考訳(メタデータ) (2026-01-05T13:26:02Z) - All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations [102.94052335735326]
All-in-one画像復元は、単一のモデルを用いて、さまざまな未知の劣化からクリーンなイメージを復元することを目的としている。
既存のアプローチは主に、現実世界の劣化過程に自然に存在する時間的連続性を見越して、フレームワイドの劣化変動に焦点を当てている。
Smoothly Evolving Unknown Degradations (SEUD) のシナリオでは、アクティブな劣化セットと劣化強度の両方が時間とともに連続的に変化する。
論文 参考訳(メタデータ) (2026-01-02T02:20:57Z) - Towards Robust DeepFake Detection under Unstable Face Sequences: Adaptive Sparse Graph Embedding with Order-Free Representation and Explicit Laplacian Spectral Prior [12.202765237400143]
本稿では,Laplacian-Regularized Graph Convolutional Network (LR-GCN)を提案する。
LR-GCNは、高度のグローバル・ローカル・ディスラプションの下で、最先端の性能とロバスト性を大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T12:31:07Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - Boosting Visual Recognition in Real-world Degradations via Unsupervised Feature Enhancement Module with Deep Channel Prior [22.323789227447755]
霧、低照度、動きのぼかしは画像の品質を低下させ、自動運転の安全性を脅かす。
本研究は、劣化した視覚認識のための新しいDeep Channel Prior (DCP)を提案する。
これに基づいて、教師なし特徴補正を実現するために、新しいプラグアンドプレイunsupervised Feature Enhancement Module (UFEM)を提案する。
論文 参考訳(メタデータ) (2024-04-02T07:16:56Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - DiffMAC: Diffusion Manifold Hallucination Correction for High Generalization Blind Face Restoration [62.44659039265439]
視覚障害者の視力回復を支援するための拡散情報拡散フレームワークを提案する。
DiffMACは、多種多様な劣化シーンと異種ドメインにおいて、高度な顔の復元を実現する。
結果は,最先端手法よりもDiffMACの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-15T08:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。