論文の概要: EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs
- arxiv url: http://arxiv.org/abs/2511.18448v1
- Date: Sun, 23 Nov 2025 13:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.846505
- Title: EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs
- Title(参考訳): EventBench: イベントベースのMLLMの包括的なベンチマークを目指す
- Authors: Shaoyu Liu, Jianing Li, Guanghui Zhao, Yunjian Zhang, Xiangyang Ji,
- Abstract要約: EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。
我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
- 参考スコア(独自算出の注目度): 53.41154446399572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have made significant advancements in event-based vision, yet the comprehensive evaluation of their capabilities within a unified benchmark remains largely unexplored. In this work, we introduce EventBench, a benchmark that offers eight diverse task metrics together with a large-scale event stream dataset. EventBench differs from existing event-based benchmarks in four key aspects: (1) openness in accessibility, releasing all raw event streams and task instructions across eight evaluation metrics; (2) diversity in task coverage, spanning understanding, recognition, and spatial reasoning tasks for comprehensive capability assessment; (3) integration in spatial dimensions, pioneering the design of 3D spatial reasoning tasks for event-based MLLMs; and (4) scale in data volume, with an accompanying training set of over one million event-text pairs supporting large-scale training and evaluation. Using EventBench, we evaluate state-of-the-art closed-source models such as GPT-5 and Gemini-2.5 Pro, leading open-source models including Qwen2.5-VL and InternVL3, and event-based MLLMs such as EventGPT that directly process raw event streams. Extensive evaluation reveals that while current event-based MLLMs demonstrate strong performance in event stream understanding, they continue to struggle with fine-grained recognition and spatial reasoning.
- Abstract(参考訳): MLLM(Multimodal large language model)は、イベントベースのビジョンにおいて大きな進歩を遂げているが、統一されたベンチマーク内でのそれらの能力の包括的な評価は、まだ明らかにされていない。
本研究では,大規模イベントストリームデータセットとともに8つのタスクメトリクスを提供するベンチマークであるEventBenchを紹介する。
EventBenchは、(1)アクセシビリティのオープン性、(2)タスクカバレッジの多様性、理解、認識、および包括的能力評価のための空間推論タスクの統合、(3)空間次元の統合、イベントベースのMLLMのための3D空間推論タスクの設計の先駆、(4)データボリュームのスケール、そして、大規模なトレーニングと評価をサポートする100万以上のイベントコンテキストペアのトレーニングセットである。
EventBenchを用いて、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、イベントストリームを直接処理するEventGPTのようなイベントベースのMLLMを評価した。
現在のイベントベースMLLMは、イベントストリーム理解において強い性能を示すが、よりきめ細かい認識と空間的推論に苦慮し続けている。
関連論文リスト
- LLM-EvRep: Learning an LLM-Compatible Event Representation Using a Self-Supervised Framework [11.30784253260618]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著なゼロショット機能を示した。
textbfLLM-EvRep のイベント表現を生成するイベント表現生成器 textbfLLM-EvGen を提案する。
N-ImageNet、N-Caltech101、N-MNISTの3つのデータセットで総合実験を行った。
論文 参考訳(メタデータ) (2025-02-20T05:18:36Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - EventVL: Understand Event Streams via Multimodal Large Language Model [29.23525787969373]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文 参考訳(メタデータ) (2025-01-23T14:37:21Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - EvEval: A Comprehensive Evaluation of Event Semantics for Large Language
Models [31.704144542866636]
イベントは様々な文脈で発生の基本的な単位として機能する。
最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。
本稿では,イベントセマンティック処理における理解,推論,予測を包含する包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T15:55:40Z) - PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。
型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文 参考訳(メタデータ) (2022-02-15T18:01:39Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。