Fugu-MT 論文翻訳(概要): Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

論文の概要: Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

arxiv url: http://arxiv.org/abs/2603.15026v1
Date: Mon, 16 Mar 2026 09:26:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:57.98358
Title: Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods
Title（参考訳）: 空間-時間的相似による生成映像の訓練不要検出
Authors: Omer Ben Hayun, Roy Betser, Meir Yossef Levi, Levi Kassel, Guy Gilboa,
Abstract要約: emphSTALLは、トレーニング不要、理論的に正当化された検出器で、ビデオの確率に基づくスコアリングを提供する。我々は,2つの公開ベンチマーク上でSTALLを評価し,最新の生成モデルを用いた新しいベンチマークであるComGenVidを紹介する。
参考スコア（独自算出の注目度）: 6.921364920053057
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce \emph{STALL}, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.
Abstract（参考訳）: テキストと画像生成の大きな進歩に続いて、ビデオ領域は飛躍的に増加し、非常に現実的で制御可能なシーケンスを生み出した。この進歩に伴い、これらのモデルは誤情報に対する深刻な懸念を生じさせ、合成ビデオの信頼性がますます重要になる。画像ベースの検出器は、フレーム単位で動作し、時間的ダイナミクスを無視しているため、基本的に制限されている。これらの課題はゼロショットアプローチを動機付け、合成データを避け、代わりに実際のデータ統計に対してコンテンツをスコアし、トレーニング不要でモデルに依存しない検出を可能にする。本稿では,ビデオの確率に基づくスコアリング,空間的および時間的エビデンスを確率的枠組み内で共同でモデル化する,簡単な,トレーニング不要で理論上正当化された検出器である \emph{STALL} を紹介する。我々は,2つの公開ベンチマーク上でSTALLを評価し,最新の生成モデルを用いた新しいベンチマークであるComGenVidを紹介する。 STALLは、画像ベースのベースラインとビデオベースのベースラインを一貫して上回る。コードとデータはhttps://omerbenhayun.github.io/stall-video.comで公開されている。

関連論文リスト

GV-VAD : Exploring Video Generation for Weakly-Supervised Video Anomaly Detection [6.09434007746295]
ビデオ異常検出(VAD)は、インテリジェント監視などの公共安全アプリケーションにおいて重要な役割を果たす。本稿では, 意味制御可能な, 物理的に可視な合成ビデオを生成するために, 映像強化弱教師付きVADフレームワークを提案する。提案するフレームワークは,UCF-Crimeデータセットの最先端手法より優れている。
論文参考訳（メタデータ） (2025-08-01T04:42:40Z)
BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [31.737159092430108]
我々は、異なる生成的アーキテクチャを研究し、バイアスがなく、障害に対して堅牢で、モデル間で共有される差別的特徴を探索し識別する。本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文参考訳（メタデータ） (2025-06-20T07:36:59Z)
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文参考訳（メタデータ） (2024-05-07T09:00:09Z)
Anomaly detection in surveillance videos using transformer based attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文参考訳（メタデータ） (2022-06-03T12:19:39Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)
Firearm Detection via Convolutional Neural Networks: Comparing a Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文参考訳（メタデータ） (2020-12-17T15:19:29Z)
Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文参考訳（メタデータ） (2020-03-17T10:54:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。