論文の概要: SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2506.07966v1
- Date: Mon, 09 Jun 2025 17:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.086384
- Title: SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence
- Title(参考訳): SpaCE-10: 構成空間知能における多モーダル大言語モデルの総合ベンチマーク
- Authors: Ziyang Gong, Wenhao Li, Oliver Ma, Songyuan Li, Jiayi Ji, Xue Yang, Gen Luo, Junchi Yan, Rongrong Ji,
- Abstract要約: 合成空間評価のベンチマークである SpaCE-10 について述べる。
SpaCE-10では、10個の原子空間能力を定義し、8つの合成能力を形成する。
SpaCE-10の共通MLLMの広範な評価を行い、最も先進的なMLLMでさえ、大きなマージンで人間より遅れていることを発見した。
- 参考スコア(独自算出の注目度): 91.25525688592285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress in various multimodal tasks. To pursue higher intelligence in space, MLLMs require integrating multiple atomic spatial capabilities to handle complex and dynamic tasks. However, existing benchmarks struggle to comprehensively evaluate the spatial intelligence of common MLLMs from the atomic level to the compositional level. To fill this gap, we present SpaCE-10, a comprehensive benchmark for compositional spatial evaluations. In SpaCE-10, we define 10 atomic spatial capabilities, which are combined to form 8 compositional capabilities. Based on these definitions, we propose a novel hierarchical annotation pipeline to generate high-quality and diverse question-answer (QA) pairs. With over 150+ hours of human expert effort, we obtain over 5k QA pairs for 811 real indoor scenes in SpaCE-10, which covers various evaluation settings like point cloud input and multi-choice QA. We conduct an extensive evaluation of common MLLMs on SpaCE-10 and find that even the most advanced MLLM still lags behind humans by large margins. Through our careful study, we also draw several significant findings that benefit the MLLM community. For example, we reveal that the shortcoming of counting capability greatly limits the compositional spatial capabilities of existing MLLMs. The evaluation code and benchmark datasets are available at https://github.com/Cuzyoung/SpaCE-10.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
宇宙における高知能を追求するために、MLLMは複雑でダイナミックなタスクを扱うために複数の原子空間能力を統合する必要がある。
しかし、既存のベンチマークでは、一般的なMLLMの空間的知能を原子レベルから組成レベルまで包括的に評価するのは難しい。
このギャップを埋めるために、合成空間評価のための総合的なベンチマークであるSpaCE-10を提案する。
SpaCE-10では、10個の原子空間能力を定義し、8つの合成能力を形成する。
これらの定義に基づき、高品質で多様な質問応答(QA)ペアを生成するための新しい階層型アノテーションパイプラインを提案する。
150時間を超える専門家の努力により、私たちは、ポイントクラウド入力やマルチチョイスQAなどのさまざまな評価設定をカバーした、SpaCE-10の811の屋内シーンに対して、5k以上のQAペアを取得しました。
SpaCE-10の共通MLLMの広範な評価を行い、最も先進的なMLLMでさえ、大きなマージンで人間より遅れていることを発見した。
慎重な研究を通じて,MLLMコミュニティに利益をもたらすいくつかの重要な発見も得る。
例えば,既存のMLLMの構成空間能力を著しく制限することを明らかにする。
評価コードとベンチマークデータセットはhttps://github.com/Cuzyoung/SpaCE-10.comで公開されている。
関連論文リスト
- SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Grounding Multimodal Large Language Models in Actions [65.88208317380793]
我々はMLLMを異なる実施形態とその関連する行動空間にベストグラウンドする方法について研究する。
連続的な動作に対しては、学習されたトークン化が十分なモデリング精度を実現することが示される。
離散的な動作に対して、これらの動作をMLLMのネイティブな出力トークン空間と意味的に整合させることが、最も高いパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-12T06:12:04Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。