Fugu-MT 論文翻訳(概要): ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity

論文の概要: ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity

arxiv url: http://arxiv.org/abs/2604.04029v1
Date: Sun, 05 Apr 2026 09:10:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.881175
Title: ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity
Title（参考訳）: ATSS:異常な時間的自己相似性によるAI生成ビデオの検出
Authors: Hang Wang, Chao Shen, Lei Zhang, Zhi-Qi Cheng,
Abstract要約: 異時性自己相似性(ATSS)と呼ばれるAIGVの特異な指紋を同定する。我々は,この知見を三重相似表現と相互共役融合機構によって活用する多モーダル検出フレームワークATSSを提案する。 ATSSはAP、AUC、ACCの指標で最先端の手法を大幅に上回っている。
参考スコア（独自算出の注目度）: 44.13741922118129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI-generated videos (AIGVs) have achieved unprecedented photorealism, posing severe threats to digital forensics. Existing AIGV detectors focus mainly on localized artifacts or short-term temporal inconsistencies, thus often fail to capture the underlying generative logic governing global temporal evolution, limiting AIGV detection performance. In this paper, we identify a distinctive fingerprint in AIGVs, termed anomalous temporal self-similarity (ATSS). Unlike real videos that exhibit stochastic natural dynamics, AIGVs follow deterministic anchor-driven trajectories (e.g., text or image prompts), inducing unnaturally repetitive correlations across visual and semantic domains. To exploit this, we propose the ATSS method, a multimodal detection framework that exploits this insight via a triple-similarity representation and a cross-attentive fusion mechanism. Specifically, ATSS reconstructs semantic trajectories by leveraging frame-wise descriptions to construct visual, textual, and cross-modal similarity matrices, which jointly quantify the inherent temporal anomalies. These matrices are encoded by dedicated Transformer encoders and integrated via a bidirectional cross-attentive fusion module to effectively model intra- and inter-modal dynamics. Extensive experiments on four large-scale benchmarks, including GenVideo, EvalCrafter, VideoPhy, and VidProM, demonstrate that ATSS significantly outperforms state-of-the-art methods in terms of AP, AUC, and ACC metrics, exhibiting superior generalization across diverse video generation models. Code and models of ATSS will be released at https://github.com/hwang-cs-ime/ATSS.
Abstract（参考訳）: AI生成ビデオ(AIGVs)は前例のないフォトリアリズムを達成し、デジタル法医学に深刻な脅威を与えている。既存のAIGV検出器は、主に局所化されたアーティファクトや短期的な時間的不整合に焦点を当てているため、AIGV検出性能を制限し、大域的時間的進化を管理する基礎となる生成論理を捕捉することができないことが多い。本稿では,ATSS (Anomalous temporal self-similarity) と呼ばれるAIGVの特異な指紋を同定する。確率的な自然なダイナミクスを示す実際のビデオとは異なり、AIGVは決定論的アンカー駆動の軌道(例えばテキストや画像のプロンプト)を辿り、視覚領域と意味領域の非自然に反復的な相関を誘導する。これを活用するために、三重相似表現と相互共役融合機構を用いて、この知見を利用するマルチモーダル検出フレームワークATSS法を提案する。特に、ATSSは、フレームワイズの記述を活用して、視覚的、テキスト的、および横断的類似性行列を構築することで、意味的軌跡を再構築する。これらの行列は、専用トランスフォーマーエンコーダによって符号化され、双方向のクロステントフュージョンモジュールを介して統合され、モーダル内およびモーダル間力学を効果的にモデル化する。 GenVideo、EvalCrafter、VideoPhy、VidProMを含む4つの大規模ベンチマークに関する大規模な実験は、ATSSがAP、AUC、ACCのメトリクスで最先端の手法を大幅に上回っており、多様なビデオ生成モデルで優れた一般化を示していることを実証している。 ATSSのコードとモデルはhttps://github.com/hwang-cs-ime/ATSSで公開される。

関連論文リスト

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning [23.043341269626016]
本稿では,WS-VAD のための Anomaly Semantics を学習するための LAS-VAD という新しいフレームワークを提案する。本フレームワークは,異常接続されたコンポーネント機構と意図認識機構を統合している。最先端の手法よりも優れており、顕著な利得がある。
論文参考訳（メタデータ） (2026-02-28T08:57:33Z)
Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-27T13:48:50Z)
Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective [80.10217707456046]
カメラメタデータを利用したAI生成画像検出のための自己教師型アプローチを提案する。分類型EXIFタグを分類することにより,撮影画像のみに特徴抽出器を訓練する。我々の検出器は、電界中のサンプルに対して強力な一般化と、一般的な良性イメージの摂動に対する堅牢性を提供する。
論文参考訳（メタデータ） (2025-12-05T11:53:18Z)
EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文参考訳（メタデータ） (2025-09-30T11:45:48Z)
Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳（メタデータ） (2025-08-03T12:06:47Z)
Real-Time Anomaly Detection in Video Streams [0.0]
この論文は、Othello社とIASD研究所との間のCIFRE協定の一部である。目的は、ビデオストリーム内のリアルタイムな危険を検出する人工知能システムを開発することである。
論文参考訳（メタデータ） (2024-11-29T14:24:33Z)
Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文参考訳（メタデータ） (2024-03-28T03:07:16Z)
AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文参考訳（メタデータ） (2024-03-25T11:26:18Z)
Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。 STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-03-14T02:26:10Z)
Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文参考訳（メタデータ） (2023-10-03T09:22:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。