論文の概要: SpecSem-Net: Integrating Spectral and Semantic Features for Robust AI-generated Video Detection
- arxiv url: http://arxiv.org/abs/2605.17311v1
- Date: Sun, 17 May 2026 08:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.895939
- Title: SpecSem-Net: Integrating Spectral and Semantic Features for Robust AI-generated Video Detection
- Title(参考訳): SpecSem-Net:ロバストAI生成ビデオ検出のためのスペクトルと意味的特徴の統合
- Authors: Zixi Wei, Huixuaun Zhang, Xiaojun Wan,
- Abstract要約: SpecSem-Netは、AI生成ビデオ検出のためのセマンティックガイド付きスペクトル復調機構を導入するためのフレームワークである。
SpecSem-Netは既存の手法よりも優れており、ベンチマークと公開データセットでそれぞれ87.25%と95.59%の精度を実現している。
- 参考スコア(独自算出の注目度): 35.509546942024095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable visual fidelity of recent commercial video generative models, such as Sora and Veo, renders robust AI-generated video detection increasingly essential to prevent synthetic content from being indistinguishable from real videos and exploited for disinformation. However, existing detectors often fail due to an over-reliance on increasingly realistic semantic features, neglecting subtle spectral artifacts. In this paper, we propose SpecSem-Net, the first framework to introduce a semantic-guided spectral denoising mechanism specifically for high-fidelity AI-generated video detection. Specifically, we design a spectral module to extract high-frequency features via Fourier-Transform based filtering. Furthermore, to reduce misjudgments arising from spectral noise, we employ a Gated Merging Mechanism to adaptively fuse semantic context, effectively mitigating spectral noise. Additionally, to evaluate detector performance on the latest top-tier generative models, we construct a comprehensive benchmark comprising 5 SOTA commercial generators. Extensive experiments demonstrate that SpecSem-Net outperforms existing methods, achieving accuracies of 87.25% and 95.59% on our benchmark and public datasets, respectively.
- Abstract(参考訳): SoraやVeoのような最近の商用ビデオ生成モデルの目立った視覚的忠実さは、合成コンテンツが実際のビデオと区別できず、偽情報を悪用するのを防ぐために、堅牢なAI生成ビデオ検出がますます不可欠になっている。
しかし、既存の検出器はしばしば現実的な意味的特徴の過度な依存のために失敗し、微妙な抽象的アーティファクトを無視する。
本稿では,高忠実度AI生成ビデオ検出に特化して,意味誘導型スペクトル復調機構を導入する最初のフレームワークであるSpecSem-Netを提案する。
具体的には、フーリエ変換に基づくフィルタリングにより高周波特徴を抽出するスペクトルモジュールを設計する。
さらに,スペクトル雑音による誤報を低減するために,Gated Merging Mechanism を用いて意味的文脈を適応的に融合し,スペクトル雑音を効果的に軽減する。
さらに, 最新の上位層生成モデルにおける検出性能を評価するため, 5個のSOTA商用発電機からなる総合ベンチマークを構築した。
大規模な実験により、SpecSem-Netは既存の手法よりも優れており、ベンチマークと公開データセットでそれぞれ87.25%と95.59%の精度を達成した。
関連論文リスト
- S^2F-Net:A Robust Spatial-Spectral Fusion Framework for Cross-Model AIGC Detection [12.927141899285758]
本稿では,S2 F-Netと呼ばれるクロスモデル検出フレームワークを提案する。
その核心は、実際のテクスチャと合成テクスチャのスペクトルの相違を探索し、活用することにある。
適応的に重み付けし、識別周波数帯域を増強する学習可能な周波数アテンションモジュールを導入する。
論文 参考訳(メタデータ) (2026-01-18T08:43:27Z) - The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding [82.53463660564933]
セマンティックエンコーダは、主に抽象的意味を符号化する低周波成分をキャプチャするが、ピクセルエンコーダは微細な詳細を伝達する高周波情報を保持する。
本稿では,新しい周波数帯域変調器を用いて意味構造と画素の詳細を調和させるモデルであるUnified Autoencoding (UAE)を提案する。
論文 参考訳(メタデータ) (2025-12-22T18:59:57Z) - SAGA: Source Attribution of Generative AI Videos [23.217701516122048]
我々は、AI生成ビデオソース属性の必要性を大規模に解決する最初の包括的なフレームワークであるSAGA(Source Attribution of Generative AI video)を紹介する。
信頼性、生成タスク(T2V/I2Vなど)、モデルバージョン、開発チーム、正確なジェネレータの5つのレベルにまたがって、よりリッチな法医学的な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-16T23:39:54Z) - Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文 参考訳(メタデータ) (2025-07-10T05:41:17Z) - Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [31.737159092430108]
我々は、異なる生成的アーキテクチャを研究し、バイアスがなく、障害に対して堅牢で、モデル間で共有される差別的特徴を探索し識別する。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。