論文の概要: FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding
- arxiv url: http://arxiv.org/abs/2601.17258v1
- Date: Sat, 24 Jan 2026 02:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.439107
- Title: FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding
- Title(参考訳): FineVAU: ファイングラインドビデオの異常理解のための新しいヒューマンアライメントベンチマーク
- Authors: João Pereira, Vasco Lopes, João Neves, David Semedo,
- Abstract要約: ビデオ異常理解(英語: Video Anomaly Understanding, VAU)は、ビデオにおける異常な出来事を説明することに焦点を当てた新しいタスクである。
既存のベンチマークはn-gramベースのメトリクス(BLEU、ROUGE-Lなど)やLLMベースの評価に依存している。
我々はVAUの新しいベンチマークであるFineVAUを提案する。
- 参考スコア(独自算出の注目度): 3.451422886843121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Understanding (VAU) is a novel task focused on describing unusual occurrences in videos. Despite growing interest, the evaluation of VAU remains an open challenge. Existing benchmarks rely on n-gram-based metrics (e.g., BLEU, ROUGE-L) or LLM-based evaluation. The first fails to capture the rich, free-form, and visually grounded nature of LVLM responses, while the latter focuses on assessing language quality over factual relevance, often resulting in subjective judgments that are misaligned with human perception. In this work, we address this issue by proposing FineVAU, a new benchmark for VAU that shifts the focus towards rich, fine-grained and domain-specific understanding of anomalous videos. We formulate VAU as a three-fold problem, with the goal of comprehensively understanding key descriptive elements of anomalies in video: events (What), participating entities (Who) and location (Where). Our benchmark introduces a) FVScore, a novel, human-aligned evaluation metric that assesses the presence of critical visual elements in LVLM answers, providing interpretable, fine-grained feedback; and b) FineW3, a novel, comprehensive dataset curated through a structured and fully automatic procedure that augments existing human annotations with high quality, fine-grained visual information. Human evaluation reveals that our proposed metric has a superior alignment with human perception of anomalies in comparison to current approaches. Detailed experiments on FineVAU unveil critical limitations in LVLM's ability to perceive anomalous events that require spatial and fine-grained temporal understanding, despite strong performance on coarse grain, static information, and events with strong visual cues.
- Abstract(参考訳): ビデオ異常理解(英語: Video Anomaly Understanding, VAU)は、ビデオにおける異常な出来事を説明することに焦点を当てた新しいタスクである。
関心が高まっているにもかかわらず、VAUの評価は依然としてオープンな課題である。
既存のベンチマークは、n-gramベースのメトリクス(例えば、BLEU、ROUGE-L)やLLMベースの評価に依存している。
1つ目は、LVLM応答の豊かで自由で視覚的に根ざした性質をとらえることに失敗し、もう1つは、事実的関連性よりも言語品質を評価することに焦点を当て、しばしば人間の知覚と一致しない主観的判断をもたらす。
本研究では,VAUの新しいベンチマークであるFineVAUを提案することでこの問題に対処する。
我々はVAUを3重問題として定式化し、ビデオにおける異常の重要記述要素であるイベント(What)、参加エンティティ(Who)、位置(Where)を包括的に理解することを目的としている。
私たちのベンチマークを紹介します
a) LVLM回答における重要な視覚要素の存在を評価し、解釈可能できめ細かなフィードバックを提供する、新規な人為的評価指標であるFVScore
b)ファインW3は、構造化され完全に自動化された手順により、高品質できめ細かい視覚情報で既存の人間のアノテーションを増強する、新しい包括的なデータセットである。
人的評価の結果,提案手法は現在の手法と比較して,人間の異常認識に優れた相関性があることが判明した。
FineVAUに関する詳細な実験では、粗い粒、静的情報、強い視覚的手がかりを持つ事象に対する強いパフォーマンスにもかかわらず、空間的および微粒な時間的理解を必要とする異常事象を知覚するLVLMの能力に重要な限界が示された。
関連論文リスト
- HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。
私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。
本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:41:44Z) - FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning [15.363132825156477]
大規模視覚言語モデル(LVLM)の評価に適した人中心ベンチマークであるFIOVAを紹介する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
本稿では,アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly [29.822544507594056]
ビデオ異常の因果理解のためのベンチマーク(CUVA)を提案する。
提案されたベンチマークの各インスタンスは、異常の"何"、"なぜ"、"どのように"を示す3つの人間のアノテーションを含んでいる。
MMEvalはCUVAの人間の嗜好に合うように設計された新しい評価基準である。
論文 参考訳(メタデータ) (2024-04-30T20:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。