論文の概要: OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
- arxiv url: http://arxiv.org/abs/2507.07984v1
- Date: Thu, 10 Jul 2025 17:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.530624
- Title: OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
- Title(参考訳): OST-Bench:オンライン時空間理解におけるMLLMの能力評価
- Authors: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang,
- Abstract要約: エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
- 参考スコア(独自算出の注目度): 16.1559012200066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have shown remarkable capabilities in integrating vision and language for complex reasoning. While most existing benchmarks evaluate models under offline settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a benchmark designed to evaluate Online Spatio-Temporal understanding from the perspective of an agent actively exploring a scene. The Online aspect emphasizes the need to process and reason over incrementally acquired observations, while the Spatio-Temporal component requires integrating current visual inputs with historical memory to support dynamic spatial reasoning. OST-Bench better reflects the challenges of real-world embodied perception. Built on an efficient data collection pipeline, OST-Bench consists of 1.4k scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that they fall short on tasks requiring complex spatio-temporal reasoning. Under the online setting, their accuracy declines as the exploration horizon extends and the memory grows. Through further experimental analysis, we identify common error patterns across models and find that both complex clue-based spatial reasoning demands and long-term memory retrieval requirements significantly drop model performance along two separate axes, highlighting the core challenges that must be addressed to improve online embodied reasoning. To foster further research and development in the field, our codes, dataset, and benchmark are available. Our project page is: https://rbler1234.github.io/OSTBench.github.io/
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、複雑な推論のための視覚と言語の統合において顕著な能力を示している。
既存のほとんどのベンチマークでは、オフライン設定下でのモデルの評価を事前に記録された入力の固定セットで行うが、現場を積極的に探索するエージェントの観点から、オンライン時空間理解を評価するために設計されたベンチマークであるOST-Benchを導入する。
オンラインの側面は、漸進的に取得された観測よりも処理と推論の必要性を強調し、一方、空間的推論をサポートするために、時空間成分は現在の視覚入力を履歴記憶と統合する必要がある。
OST-Benchは現実世界の具体的知覚の課題をよく反映している。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
我々はOST-Bench上でのMLLMを複数評価し、複雑な時空間的推論を必要とするタスクでは不十分であることを示した。
オンライン環境下では、探査地平線が広がり、記憶が大きくなるにつれて精度が低下する。
さらに, モデル間の共通なエラーパターンを同定し, 複雑な手がかりに基づく空間推論要求と長期記憶検索要求の両方が, 2つの異なる軸に沿ってモデル性能を著しく低下させ, オンラインの具体的推論を改善するために対処すべき課題を浮き彫りにする。
この分野におけるさらなる研究と開発を促進するために、私たちのコード、データセット、ベンチマークが利用可能です。
私たちのプロジェクトページは以下のとおりです。
関連論文リスト
- Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。
AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。
AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文 参考訳(メタデータ) (2025-06-09T23:56:41Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。