論文の概要: Pistachio: Towards Synthetic, Balanced, and Long-Form Video Anomaly Benchmarks
- arxiv url: http://arxiv.org/abs/2511.19474v1
- Date: Sat, 22 Nov 2025 07:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.018162
- Title: Pistachio: Towards Synthetic, Balanced, and Long-Form Video Anomaly Benchmarks
- Title(参考訳): Pistachio: ビデオ異常ベンチマークの合成,バランス,長期化を目指す
- Authors: Jie Li, Hongyi Cai, Mingkang Dong, Muxin Pu, Shan You, Fei Wang, Tao Huang,
- Abstract要約: Pistachioは、コントロールされた世代ベースのパイプラインで完全に構築された、新しいVAD/VAUベンチマークである。
パイプラインには,シーン条件の異常割当,複数ステップのストーリーライン生成,時間的に一貫した長周期合成戦略が組み込まれている。
- 参考スコア(独自算出の注目度): 24.381581747606067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically detecting abnormal events in videos is crucial for modern autonomous systems, yet existing Video Anomaly Detection (VAD) benchmarks lack the scene diversity, balanced anomaly coverage, and temporal complexity needed to reliably assess real-world performance. Meanwhile, the community is increasingly moving toward Video Anomaly Understanding (VAU), which requires deeper semantic and causal reasoning but remains difficult to benchmark due to the heavy manual annotation effort it demands. In this paper, we introduce Pistachio, a new VAD/VAU benchmark constructed entirely through a controlled, generation-based pipeline. By leveraging recent advances in video generation models, Pistachio provides precise control over scenes, anomaly types, and temporal narratives, effectively eliminating the biases and limitations of Internet-collected datasets. Our pipeline integrates scene-conditioned anomaly assignment, multi-step storyline generation, and a temporally consistent long-form synthesis strategy that produces coherent 41-second videos with minimal human intervention. Extensive experiments demonstrate the scale, diversity, and complexity of Pistachio, revealing new challenges for existing methods and motivating future research on dynamic and multi-event anomaly understanding.
- Abstract(参考訳): しかし、既存のビデオ異常検出(VAD)ベンチマークでは、シーンの多様性、バランスの取れた異常カバレッジ、リアルタイムのパフォーマンスを確実に評価するために必要な時間的複雑さが欠如している。
一方、コミュニティはビデオ異常理解(VAU)へと向かっている。これは、より深い意味論と因果推論を必要とするが、それが要求する重いマニュアルアノテーションの努力のために、ベンチマークが難しいままである。
本稿では,新しいVAD/VAUベンチマークであるPistachioについて紹介する。
映像生成モデルの最近の進歩を活用して、ピスタチオはシーン、異常タイプ、時間的物語を正確に制御し、インターネットで収集されたデータセットのバイアスと制限を効果的に排除する。
我々のパイプラインは,シーン条件の異常割当,複数ステップのストーリーライン生成,時間的に一貫した長文合成戦略を統合し,人間の介入を最小限に抑えた41秒のビデオを生成する。
大規模な実験はピスタチオのスケール、多様性、複雑さを実証し、既存の方法に対する新たな課題を明らかにし、動的およびマルチイベントの異常な理解に関する将来の研究を動機付けている。
関連論文リスト
- Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity [35.14762107193339]
HIVAU-70kは、あらゆる粒度の階層的ビデオ異常理解のためのベンチマークである。
高品質なアノテーションを効率よくスケールする半自動アノテーションエンジンを開発した。
長ビデオにおける効率的な異常検出のために,Anomaly- Focus Temporal Samplerを提案する。
論文 参考訳(メタデータ) (2024-12-09T03:05:34Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。