論文の概要: EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos
- arxiv url: http://arxiv.org/abs/2603.29943v1
- Date: Tue, 31 Mar 2026 16:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.844839
- Title: EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos
- Title(参考訳): EC-Bench: 超長ビデオの列挙とカウントベンチマーク
- Authors: Fumihiko Tsuchiya, Taiki Miyanishi, Mahiro Ukai, Nakamasa Inoue, Shuhei Kurita, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 現実世界の録音は数分間かそれ以上で、希少で多様なイベントを含むことが多い。
既存のビデオカウントベンチマークのほとんどはショートクリップにフォーカスし、最終的な数値解のみを評価する。
本稿では,長文ビデオの列挙,カウント,時間的証拠を共同評価するベンチマークEC-Benchを紹介する。
- 参考スコア(独自算出の注目度): 56.23636449524238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counting in long videos remains a fundamental yet underexplored challenge in computer vision. Real-world recordings often span tens of minutes or longer and contain sparse, diverse events, making long-range temporal reasoning particularly difficult. However, most existing video counting benchmarks focus on short clips and evaluate only the final numerical answer, providing little insight into what should be counted or whether models consistently identify relevant instances across time. We introduce EC-Bench, a benchmark that jointly evaluates enumeration, counting, and temporal evidence grounding in long-form videos. EC-Bench contains 152 videos longer than 30 minutes and 1,699 queries paired with explicit evidence spans. Across 22 multimodal large language models (MLLMs), the best model achieves only 29.98% accuracy on Enumeration and 23.74% on Counting, while human performance reaches 78.57% and 82.97%, respectively. Our analysis reveals strong relationships between enumeration accuracy, temporal grounding, and counting performance. These results highlight fundamental limitations of current MLLMs and establish EC-Bench as a challenging benchmark for long-form quantitative video reasoning.
- Abstract(参考訳): 長いビデオのカウントは、コンピュータビジョンの根本的かつ未発見の課題である。
現実世界の録音は数分間かそれ以上の時間で行われ、希少で多様な出来事が含まれており、特に長距離の時間的推論が困難である。
しかし、既存のビデオカウントベンチマークのほとんどはショートクリップにフォーカスし、最終的な数値のみを評価する。
本稿では,長文ビデオの列挙,カウント,時間的証拠を共同評価するベンチマークEC-Benchを紹介する。
EC-Benchには、30分以上の152のビデオと、明確なエビデンスと組み合わせた1,699のクエリが含まれている。
22のマルチモーダル大言語モデル (MLLM) 全体で、最高のモデルは列挙で29.98%、カウントで23.74%、人間のパフォーマンスは78.57%、82.97%である。
分析の結果,列挙精度,時間的グラウンドリング,計数性能の強い関係が明らかとなった。
これらの結果は、現在のMLLMの基本的限界を強調し、長期的定量的ビデオ推論のための挑戦的なベンチマークとしてEC-Benchを確立する。
関連論文リスト
- MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [20.184894298462652]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。