論文の概要: EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection
- arxiv url: http://arxiv.org/abs/2602.17260v1
- Date: Thu, 19 Feb 2026 11:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.92904
- Title: EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection
- Title(参考訳): EA-Swin:AI生成ビデオ検出のための埋め込み非依存スイム変換器
- Authors: Hung Mai, Loi Dinh, Duc Hai Nguyen, Dat Do, Luong Doan, Khanh Nguyen Quoc, Huan Vu, Phong Ho, Naeem Ul Islam, Tuan Do,
- Abstract要約: 本論文はEA-Swinについて述べる。Embeding-Agnostic Swinモデルで,映像の埋め込みに直接依存を組み込む。
その結果, EA-Swin 0.97-0.99 の精度は, 従来の SoTA 法 (通常 0.80.9-20%) よりも5-20% 向上した。
- 参考スコア(独自算出の注目度): 2.1627654218138237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in foundation video generators such as Sora2, Veo3, and other commercial systems have produced highly realistic synthetic videos, exposing the limitations of existing detection methods that rely on shallow embedding trajectories, image-based adaptation, or computationally heavy MLLMs. We propose EA-Swin, an Embedding-Agnostic Swin Transformer that models spatiotemporal dependencies directly on pretrained video embeddings via a factorized windowed attention design, making it compatible with generic ViT-style patch-based encoders. Alongside the model, we construct the EA-Video dataset, a benchmark dataset comprising 130K videos that integrates newly collected samples with curated existing datasets, covering diverse commercial and open-source generators and including unseen-generator splits for rigorous cross-distribution evaluation. Extensive experiments show that EA-Swin achieves 0.97-0.99 accuracy across major generators, outperforming prior SoTA methods (typically 0.8-0.9) by a margin of 5-20%, while maintaining strong generalization to unseen distributions, establishing a scalable and robust solution for modern AI-generated video detection.
- Abstract(参考訳): Sora2やVeo3といった基礎的なビデオジェネレータの最近の進歩は、浅い埋め込み軌道、画像ベースの適応、計算量の多いMLLMに依存する既存の検出方法の限界を明らかにする、非常に現実的な合成ビデオを生み出している。
そこで本稿では,VT方式のパッチ方式のエンコーダと互換性のあるEA-Swin方式のEmbeding-Agnostic Swin Transformerを提案する。
モデルと並行して,新たに収集したサンプルと既存のデータセットを統合するベンチマークデータセットであるEA-Videoを構築し,多種多様な商用およびオープンソースジェネレータをカバーするとともに,厳密なクロスディストリビューション評価のための未確認世代分割を含む。
大規模な実験により、EA-Swinは主要な発電機間で0.97-0.99の精度を達成し、従来のSoTA法(通常は0.8-0.9)のマージンを5-20%上回った。
関連論文リスト
- VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - SAGA: Source Attribution of Generative AI Videos [23.217701516122048]
我々は、AI生成ビデオソース属性の必要性を大規模に解決する最初の包括的なフレームワークであるSAGA(Source Attribution of Generative AI video)を紹介する。
信頼性、生成タスク(T2V/I2Vなど)、モデルバージョン、開発チーム、正確なジェネレータの5つのレベルにまたがって、よりリッチな法医学的な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-16T23:39:54Z) - AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences [41.66718802220536]
AEGISは、多種多様な最先端の生成モデルによって生成される、厳格にキュレートされたリアルビデオと合成ビデオで構成されている。
セマンティック認証記述、動作特徴、低レベル視覚特徴にまたがるマルチモーダルアノテーションを提供する。
高度な視覚言語モデルを用いた実験は、AIGISの最も困難なサブセットにおいて、限られた検出能力を示す。
論文 参考訳(メタデータ) (2025-08-14T15:55:49Z) - Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - AVA: Towards Agentic Video Analytics with Vision Language Models [25.232366981384107]
本稿では,VLMを利用した映像分析システムであるAVAを紹介する。
Ava には,1) 長時間あるいは連続的なビデオストリームの効率的なインデックス作成のためのイベント知識グラフ(EKG)のリアルタイム構築,2) 複雑で多様なクエリを扱うために EKG を活用するエージェント検索生成機構がある。
論文 参考訳(メタデータ) (2025-05-01T02:40:23Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。