論文の概要: Detecting AI-Generated Videos with Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2605.05895v1
- Date: Thu, 07 May 2026 09:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.650775
- Title: Detecting AI-Generated Videos with Spiking Neural Networks
- Title(参考訳): スパイクニューラルネットワークによるAI生成ビデオの検出
- Authors: Minsuk Jang, Yujin Yang, Heeseon Kim, Minseok Son, Younghun Kim, Changick Kim,
- Abstract要約: 我々は,クロスジェネレータ評価のための冷凍セマンティックエンコーダとともに,スパイク駆動の時間枝で多チャンネル時間残差を処理する検出器であるMASTを提案する。
GenVideoベンチマークでは、MASTは厳密なクロスジェネレータ評価の下で10個の未確認発電機で93.14%の平均精度を達成した。
- 参考スコア(独自算出の注目度): 26.67301552503132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI-generated videos are photorealistic at the single-frame level, leaving inter-frame dynamics as the main remaining axis for detection. Existing detectors typically handle this temporal evidence in three ways: feeding the full frame sequence to a generic temporal backbone, reducing one dominant temporal cue to fixed video-level descriptors, or comparing temporal features to real-video statistics through a detection metric. These strategies degrade sharply under cross-generator evaluation, where artifact type and timescale vary across generators. On caption-paired benchmark, GenVidBench, we identify two signatures that prior detectors do not jointly exploit: AI-generated videos exhibit smoother frame-to-frame temporal residuals at the pixel level, and more compact trajectories in the semantic feature space, indicating a temporal smoothness gap at both levels. We further observe that, when raw video is fed into a Spiking Neural Networks (SNNs), fake clips elicit firing predominantly at object and motion boundaries, unlike real clips, suggesting that the SNN responds to temporal artifacts localized at edges. These cues are sparse, asynchronous, and concentrated at moments of change, which makes SNNs a natural choice for this task: their event-driven, sparsely-activated dynamics align with the structure of the residual signal in a way that dense ANN backbones do not. Building on this observation, we propose MAST, a detector that processes multi-channel temporal residuals with a spike-driven temporal branch alongside a frozen semantic encoder for cross-generator generalization. On the GenVideo benchmark, MAST achieves 93.14\% mean accuracy across 10 unseen generators under strict cross-generator evaluation, matching or surpassing the strongest ANN-based detectors and demonstrating the practical applicability of SNNs to AI-generated video detection.
- Abstract(参考訳): 現代のAI生成ビデオは、単一のフレームレベルでフォトリアリスティックであり、フレーム間のダイナミクスを検出のための主要な軸として残している。
既存の検出器は一般的に、この時間的証拠を3つの方法で処理する: 全体フレームシーケンスを一般的な時間的バックボーンに供給し、固定されたビデオレベルの記述子に支配的な時間的キューを1つ減らし、また、時間的特徴を検出基準によってリアルタイムの統計と比較する。
これらの戦略は、アーティファクトタイプと時間スケールがジェネレータ間で異なる場合、クロスジェネレータ評価の下で著しく低下する。
キャプションペア付きベンチマークであるGenVidBenchでは、先行検出器が共同利用しない2つの署名を識別する。AI生成ビデオは、ピクセルレベルでよりスムーズなフレーム間時間残差を示し、セマンティック特徴空間においてよりコンパクトな軌跡を示し、両方のレベルにおける時間的滑らかさギャップを示す。
さらに、生のビデオがスパイキングニューラルネットワーク(SNN)に入力されると、実際のクリップと異なり、オブジェクトとモーションの境界で主に発射される偽のクリップが引き起こされ、SNNがエッジで局所化された時間的アーティファクトに応答することが示唆される。
これらのキューはスパースで非同期であり、変更の瞬間に集中しているため、SNNはこのタスクにとって自然な選択となる。
この観測に基づいて,クロスジェネレータ一般化のためのフリーズセマンティックエンコーダとともに,スパイク駆動の時間枝で多チャンネル時間残差を処理する検出器であるMASTを提案する。
GenVideoベンチマークでは、MASTは厳密なクロスジェネレータ評価の下で10個の未確認ジェネレータの平均精度を93.14パーセント達成し、最強のANNベースの検出器をマッチングまたは超過し、AI生成されたビデオ検出に対するSNNの実用的な適用性を実証している。
関連論文リスト
- ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity [44.13741922118129]
異時性自己相似性(ATSS)と呼ばれるAIGVの特異な指紋を同定する。
我々は,この知見を三重相似表現と相互共役融合機構によって活用する多モーダル検出フレームワークATSSを提案する。
ATSSはAP、AUC、ACCの指標で最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2026-04-05T09:10:13Z) - Real-Time Anomaly Detection in Video Streams [0.0]
この論文は、Othello社とIASD研究所との間のCIFRE協定の一部である。
目的は、ビデオストリーム内のリアルタイムな危険を検出する人工知能システムを開発することである。
論文 参考訳(メタデータ) (2024-11-29T14:24:33Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation [8.013823319651395]
ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
論文 参考訳(メタデータ) (2021-02-26T14:06:31Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。