論文の概要: AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences
- arxiv url: http://arxiv.org/abs/2508.10771v1
- Date: Thu, 14 Aug 2025 15:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.392621
- Title: AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences
- Title(参考訳): AEGIS: AI生成ビデオシーケンスの認証評価ベンチマーク
- Authors: Jieyu Li, Xin Zhang, Joey Tianyi Zhou,
- Abstract要約: AEGISは、多種多様な最先端の生成モデルによって生成される、厳格にキュレートされたリアルビデオと合成ビデオで構成されている。
セマンティック認証記述、動作特徴、低レベル視覚特徴にまたがるマルチモーダルアノテーションを提供する。
高度な視覚言語モデルを用いた実験は、AIGISの最も困難なサブセットにおいて、限られた検出能力を示す。
- 参考スコア(独自算出の注目度): 41.66718802220536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in AI-generated content have fueled the rise of highly realistic synthetic videos, posing severe risks to societal trust and digital integrity. Existing benchmarks for video authenticity detection typically suffer from limited realism, insufficient scale, and inadequate complexity, failing to effectively evaluate modern vision-language models against sophisticated forgeries. To address this critical gap, we introduce AEGIS, a novel large-scale benchmark explicitly targeting the detection of hyper-realistic and semantically nuanced AI-generated videos. AEGIS comprises over 10,000 rigorously curated real and synthetic videos generated by diverse, state-of-the-art generative models, including Stable Video Diffusion, CogVideoX-5B, KLing, and Sora, encompassing open-source and proprietary architectures. In particular, AEGIS features specially constructed challenging subsets enhanced with robustness evaluation. Furthermore, we provide multimodal annotations spanning Semantic-Authenticity Descriptions, Motion Features, and Low-level Visual Features, facilitating authenticity detection and supporting downstream tasks such as multimodal fusion and forgery localization. Extensive experiments using advanced vision-language models demonstrate limited detection capabilities on the most challenging subsets of AEGIS, highlighting the dataset's unique complexity and realism beyond the current generalization capabilities of existing models. In essence, AEGIS establishes an indispensable evaluation benchmark, fundamentally advancing research toward developing genuinely robust, reliable, broadly generalizable video authenticity detection methodologies capable of addressing real-world forgery threats. Our dataset is available on https://huggingface.co/datasets/Clarifiedfish/AEGIS.
- Abstract(参考訳): AI生成コンテンツの最近の進歩は、高度にリアルな合成ビデオの興隆を後押しし、社会的信頼とデジタル完全性に深刻なリスクをもたらしている。
既存のビデオ認証検出のベンチマークは、一般的に制限されたリアリズム、不十分なスケール、不十分な複雑さに悩まされ、洗練された偽造品に対して現代の視覚言語モデルを効果的に評価することができない。
この重要なギャップに対処するために、我々は、超現実的でセマンティックにニュアンスドされたAI生成ビデオの検出を明示的にターゲットとする、新しい大規模ベンチマークであるAEGISを紹介する。
AEGISは、Stable Video Diffusion、CogVideoX-5B、KLing、Soraなど、さまざまな最先端のジェネレーティブモデルによって生成される10,000以上の厳格にキュレートされたリアルビデオと合成ビデオで構成されており、オープンソースおよびプロプライエタリなアーキテクチャを含んでいる。
特に、AEGISは、堅牢性の評価で強化された特別に構築された挑戦的なサブセットを特徴としている。
さらに,Semantic-Authenticity Descriptions, Motion Features, Low-level Visual Featuresにまたがるマルチモーダルアノテーションを提供する。
高度な視覚言語モデルを用いた大規模な実験は、AIGISの最も困難なサブセットにおいて限られた検出能力を示し、既存のモデルの現在の一般化能力を超えてデータセットのユニークな複雑さとリアリズムを強調している。
本質的には、AIGISは必要不可欠な評価ベンチマークを確立し、真に堅牢で、信頼性が高く、広く一般化可能な、現実世界の偽造の脅威に対処可能なビデオ認証検出手法の開発に向けた研究を根本的に進めている。
データセットはhttps://huggingface.co/datasets/Clarifiedfish/AEGISで公開しています。
関連論文リスト
- Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-25T03:30:04Z) - Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [18.402668470092294]
合成ビデオ生成は、実際のものとはほとんど区別できない、非常にリアルな高解像度ビデオを生成することができる。
いくつかのビデオ法医学検出器が最近提案されているが、しばしば一般化が不十分である。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - Is Artificial Intelligence Generated Image Detection a Solved Problem? [10.839070838139401]
AIGIBenchは、最先端AIGI検出器の堅牢性と一般化能力を厳格に評価するために設計されたベンチマークである。
これには、高度な画像生成技術と広く採用されている画像生成技術の両方にまたがる、23の多様なフェイクイメージサブセットが含まれている。
11個の先進検出器の実験では、制御された設定で高い精度が報告されているにもかかわらず、これらの検出器は実世界のデータに大きな性能低下を被ることを示した。
論文 参考訳(メタデータ) (2025-05-18T10:00:39Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark [8.827755848017578]
既存のメトリクスには、方法論を体系的に分類するための統一されたフレームワークがない。
AI生成ビデオ評価のための構造化分類と評価パイプラインを提供する統合フレームワークであるAIGVE-Toolを紹介する。
大規模なベンチマークデータセットは、手作りの指示とプロンプトに基づいて、5つのSOTAビデオ生成モデルで作成される。
論文 参考訳(メタデータ) (2025-03-18T09:36:33Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
ビデオ異常検出とビデオ異常認識は、インテリジェントな監視、証拠調査、暴力警告などの応用において極めて重要である。
これらのタスクは、極めて不均衡なデータと、教師付き学習のための広範囲なフレームレベルのデータアノテーションの非現実性をもたらす異常の出現によって、重大な課題に直面している。
本稿では、最先端の大規模言語モデルと総合知識グラフを活用して、VARにおける弱教師付き学習を効果的に行うことで、これらの課題に対処する新しい階層型グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。