論文の概要: VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis
- arxiv url: http://arxiv.org/abs/2605.22570v1
- Date: Thu, 21 May 2026 14:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.309581
- Title: VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis
- Title(参考訳): VGenST-Bench: アクティブビデオ合成による時空間推論のベンチマーク
- Authors: Jinho Park, Youbin Kim, Hogun Park, Eunbyung Park,
- Abstract要約: VGenSTBenchは、生成モデルを使用して、アクティブに合成され、高度に制御され、多様な評価シナリオを提供するビデオベンチマークである。
我々は、様々なシナリオにまたがる空間スケールシーン、パースペクティブダイナミクスを含む、包括的な3x2x2ビデオ分類を確立した。
- 参考スコア(独自算出の注目度): 23.34626996348395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal reasoning is a core capability for Multimodal Large Language Models (MLLMs) operating in the real world. As such, evaluating it precisely has become an essential challenge. However, existing spatio-temporal reasoning benchmark datasets primarily rely on static image sets or passively curated video data, which limits the evaluation of fine-grained reasoning capabilities. In this paper, we introduce VGenST-Bench, a video benchmark that employs generative models to actively synthesize highly controlled and diverse evaluation scenarios. To construct VGenST-Bench, we propose a multi-agent pipeline incorporating a human quality control stage, ensuring the quality of all generated videos and QA pairs. We establish a comprehensive 3x2x2 video taxonomy, encompassing Spatial Scale, Perspective, and Scene Dynamics to span diverse scenarios. Furthermore, we design a hierarchical task suite that decouples low-level visual perception from high-level spatio-temporal reasoning. By shifting the paradigm from passive curation to active synthesis, VGenST-Bench enables fine-grained diagnosis of spatio-temporal understanding in MLLMs.
- Abstract(参考訳): 時空間推論は、実世界のマルチモーダル大言語モデル(MLLM)のコア機能である。
そのため、正確に評価することが重要な課題となっている。
しかし、既存の時空間推論ベンチマークデータセットは主に静的画像セットや受動的にキュレートされたビデオデータに依存しており、微粒な推論能力の評価が制限されている。
本稿では,高制御・多種多様な評価シナリオを積極的に合成するために生成モデルを用いたビデオベンチマークVGenST-Benchを紹介する。
VGenST-Benchを構築するために、人間の品質制御段階を組み込んだマルチエージェントパイプラインを提案し、生成されたビデオとQAペアの質を保証する。
我々は、様々なシナリオにまたがる空間スケール、パースペクティブ、シーンダイナミクスを含む、包括的な3x2x2ビデオ分類を確立した。
さらに,高次時空間推論から低次視覚知覚を分離する階層型タスクスイートを設計する。
パラダイムを受動的キュレーションから能動的合成にシフトさせることで、VGenST-BenchはMLLMの時空間的理解の詳細な診断を可能にする。
関連論文リスト
- Act2See: Emergent Active Visual Perception for Video Reasoning [70.52373240573856]
VLM(Vision-Language Models)は通常、ビデオの推論に静的な初期フレームに依存している。
本稿では,アクト・ツー・シー(Act2See)という,アクティブな視覚知覚を実現する新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-05-03T00:52:51Z) - SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。