論文の概要: BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos
- arxiv url: http://arxiv.org/abs/2506.20103v1
- Date: Wed, 25 Jun 2025 03:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.59301
- Title: BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos
- Title(参考訳): BrokenVideos:AI生成ビデオの微粒化アーティファクトローカライゼーションのためのベンチマークデータセット
- Authors: Jiahao Lin, Weixuan Peng, Bojia Zi, Yifeng Gao, Xianbiao Qi, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 63.03271511550633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep generative models have led to significant progress in video generation, yet the fidelity of AI-generated videos remains limited. Synthesized content often exhibits visual artifacts such as temporally inconsistent motion, physically implausible trajectories, unnatural object deformations, and local blurring that undermine realism and user trust. Accurate detection and spatial localization of these artifacts are crucial for both automated quality control and for guiding the development of improved generative models. However, the research community currently lacks a comprehensive benchmark specifically designed for artifact localization in AI generated videos. Existing datasets either restrict themselves to video or frame level detection or lack the fine-grained spatial annotations necessary for evaluating localization methods. To address this gap, we introduce BrokenVideos, a benchmark dataset of 3,254 AI-generated videos with meticulously annotated, pixel-level masks highlighting regions of visual corruption. Each annotation is validated through detailed human inspection to ensure high quality ground truth. Our experiments show that training state of the art artifact detection models and multi modal large language models (MLLMs) on BrokenVideos significantly improves their ability to localize corrupted regions. Through extensive evaluation, we demonstrate that BrokenVideos establishes a critical foundation for benchmarking and advancing research on artifact localization in generative video models. The dataset is available at: https://broken-video-detection-datetsets.github.io/Broken-Video-Detection-Datasets.github.io/.
- Abstract(参考訳): 深層生成モデルの最近の進歩は、ビデオ生成に大きな進歩をもたらしたが、AI生成されたビデオの忠実さは依然として限られている。
合成されたコンテンツは、時間的に矛盾した動き、物理的に不明瞭な軌道、不自然な物体の変形、現実主義やユーザーの信頼を損なう局所的なぼやけなどの視覚的な人工物を示すことが多い。
これらのアーティファクトの正確な検出と空間的局在化は、自動品質制御と、改良された生成モデルの開発を導くために重要である。
しかし、現在研究コミュニティは、AI生成ビデオのアーティファクトローカライゼーションに特化した包括的なベンチマークを欠いている。
既存のデータセットは、ビデオやフレームレベルの検出に制限されるか、あるいはローカライゼーションメソッドを評価するのに必要な詳細な空間アノテーションが欠如している。
このギャップに対処するために、BrokenVideosという3,254個のAI生成ビデオのベンチマークデータセットを紹介した。
各アノテーションは人間の詳細な検査によって検証され、高品質な地上真実が保証される。
実験により,BrokenVideosにおける最先端のアーティファクト検出モデルとマルチモーダル大言語モデル(MLLM)の訓練により,劣化領域のローカライズ能力が著しく向上することが確認された。
広範に評価することで,BrokenVideosは生成ビデオモデルにおけるアーティファクトローカライゼーションの研究をベンチマークし,進展させる上で重要な基盤を確立していることを示す。
データセットは以下の通りである。 https://broken-video-detection-datetsets.github.io/Broken-Video-detection-Datasets.github.io/
関連論文リスト
- Vulnerability-Aware Spatio-Temporal Learning for Generalizable and Interpretable Deepfake Video Detection [14.586314545834934]
ディープフェイクビデオは、鍛造シーケンスの複雑な時間的および空間的なアーティファクトのため、検出が極めて困難である。
最近のアプローチは、実データと偽データの両方で訓練されたバイナリ分類器に依存している。
モデルが微妙なアーティファクトに集中できるように,空間的および時間的分岐を付加したマルチタスク学習フレームワークを導入する。
第2に,疑似フェイク映像を微妙なアーティファクトで生成するビデオレベルデータアルゴリズムを提案し,そのモデルに高品質なサンプルと地上真実データを提供する。
論文 参考訳(メタデータ) (2025-01-02T10:21:34Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。
本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。
現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文 参考訳(メタデータ) (2024-05-07T09:00:09Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。