論文の概要: BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos
- arxiv url: http://arxiv.org/abs/2506.20103v1
- Date: Wed, 25 Jun 2025 03:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.59301
- Title: BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos
- Title(参考訳): BrokenVideos:AI生成ビデオの微粒化アーティファクトローカライゼーションのためのベンチマークデータセット
- Authors: Jiahao Lin, Weixuan Peng, Bojia Zi, Yifeng Gao, Xianbiao Qi, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 63.03271511550633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep generative models have led to significant progress in video generation, yet the fidelity of AI-generated videos remains limited. Synthesized content often exhibits visual artifacts such as temporally inconsistent motion, physically implausible trajectories, unnatural object deformations, and local blurring that undermine realism and user trust. Accurate detection and spatial localization of these artifacts are crucial for both automated quality control and for guiding the development of improved generative models. However, the research community currently lacks a comprehensive benchmark specifically designed for artifact localization in AI generated videos. Existing datasets either restrict themselves to video or frame level detection or lack the fine-grained spatial annotations necessary for evaluating localization methods. To address this gap, we introduce BrokenVideos, a benchmark dataset of 3,254 AI-generated videos with meticulously annotated, pixel-level masks highlighting regions of visual corruption. Each annotation is validated through detailed human inspection to ensure high quality ground truth. Our experiments show that training state of the art artifact detection models and multi modal large language models (MLLMs) on BrokenVideos significantly improves their ability to localize corrupted regions. Through extensive evaluation, we demonstrate that BrokenVideos establishes a critical foundation for benchmarking and advancing research on artifact localization in generative video models. The dataset is available at: https://broken-video-detection-datetsets.github.io/Broken-Video-Detection-Datasets.github.io/.
- Abstract(参考訳): 深層生成モデルの最近の進歩は、ビデオ生成に大きな進歩をもたらしたが、AI生成されたビデオの忠実さは依然として限られている。
合成されたコンテンツは、時間的に矛盾した動き、物理的に不明瞭な軌道、不自然な物体の変形、現実主義やユーザーの信頼を損なう局所的なぼやけなどの視覚的な人工物を示すことが多い。
これらのアーティファクトの正確な検出と空間的局在化は、自動品質制御と、改良された生成モデルの開発を導くために重要である。
しかし、現在研究コミュニティは、AI生成ビデオのアーティファクトローカライゼーションに特化した包括的なベンチマークを欠いている。
既存のデータセットは、ビデオやフレームレベルの検出に制限されるか、あるいはローカライゼーションメソッドを評価するのに必要な詳細な空間アノテーションが欠如している。
このギャップに対処するために、BrokenVideosという3,254個のAI生成ビデオのベンチマークデータセットを紹介した。
各アノテーションは人間の詳細な検査によって検証され、高品質な地上真実が保証される。
実験により,BrokenVideosにおける最先端のアーティファクト検出モデルとマルチモーダル大言語モデル(MLLM)の訓練により,劣化領域のローカライズ能力が著しく向上することが確認された。
広範に評価することで,BrokenVideosは生成ビデオモデルにおけるアーティファクトローカライゼーションの研究をベンチマークし,進展させる上で重要な基盤を確立していることを示す。
データセットは以下の通りである。 https://broken-video-detection-datetsets.github.io/Broken-Video-detection-Datasets.github.io/
関連論文リスト
- Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [18.402668470092294]
合成ビデオ生成は、実際のものとはほとんど区別できない、非常にリアルな高解像度ビデオを生成することができる。
いくつかのビデオ法医学検出器が最近提案されているが、しばしば一般化が不十分である。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - Vulnerability-Aware Spatio-Temporal Learning for Generalizable and Interpretable Deepfake Video Detection [14.586314545834934]
ディープフェイクビデオは、鍛造シーケンスの複雑な時間的および空間的なアーティファクトのため、検出が極めて困難である。
最近のアプローチは、実データと偽データの両方で訓練されたバイナリ分類器に依存している。
モデルが微妙なアーティファクトに集中できるように,空間的および時間的分岐を付加したマルチタスク学習フレームワークを導入する。
第2に,疑似フェイク映像を微妙なアーティファクトで生成するビデオレベルデータアルゴリズムを提案し,そのモデルに高品質なサンプルと地上真実データを提供する。
論文 参考訳(メタデータ) (2025-01-02T10:21:34Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。
本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。
現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文 参考訳(メタデータ) (2024-05-07T09:00:09Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。