Fugu-MT 論文翻訳(概要): SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

論文の概要: SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

arxiv url: http://arxiv.org/abs/2506.07966v1
Date: Mon, 09 Jun 2025 17:41:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:11.086384
Title: SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence
Title（参考訳）: SpaCE-10: 構成空間知能における多モーダル大言語モデルの総合ベンチマーク
Authors: Ziyang Gong, Wenhao Li, Oliver Ma, Songyuan Li, Jiayi Ji, Xue Yang, Gen Luo, Junchi Yan, Rongrong Ji,
Abstract要約: 合成空間評価のベンチマークである SpaCE-10 について述べる。 SpaCE-10では、10個の原子空間能力を定義し、8つの合成能力を形成する。 SpaCE-10の共通MLLMの広範な評価を行い、最も先進的なMLLMでさえ、大きなマージンで人間より遅れていることを発見した。
参考スコア（独自算出の注目度）: 91.25525688592285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress in various multimodal tasks. To pursue higher intelligence in space, MLLMs require integrating multiple atomic spatial capabilities to handle complex and dynamic tasks. However, existing benchmarks struggle to comprehensively evaluate the spatial intelligence of common MLLMs from the atomic level to the compositional level. To fill this gap, we present SpaCE-10, a comprehensive benchmark for compositional spatial evaluations. In SpaCE-10, we define 10 atomic spatial capabilities, which are combined to form 8 compositional capabilities. Based on these definitions, we propose a novel hierarchical annotation pipeline to generate high-quality and diverse question-answer (QA) pairs. With over 150+ hours of human expert effort, we obtain over 5k QA pairs for 811 real indoor scenes in SpaCE-10, which covers various evaluation settings like point cloud input and multi-choice QA. We conduct an extensive evaluation of common MLLMs on SpaCE-10 and find that even the most advanced MLLM still lags behind humans by large margins. Through our careful study, we also draw several significant findings that benefit the MLLM community. For example, we reveal that the shortcoming of counting capability greatly limits the compositional spatial capabilities of existing MLLMs. The evaluation code and benchmark datasets are available at https://github.com/Cuzyoung/SpaCE-10.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。宇宙における高知能を追求するために、MLLMは複雑でダイナミックなタスクを扱うために複数の原子空間能力を統合する必要がある。しかし、既存のベンチマークでは、一般的なMLLMの空間的知能を原子レベルから組成レベルまで包括的に評価するのは難しい。このギャップを埋めるために、合成空間評価のための総合的なベンチマークであるSpaCE-10を提案する。 SpaCE-10では、10個の原子空間能力を定義し、8つの合成能力を形成する。これらの定義に基づき、高品質で多様な質問応答(QA)ペアを生成するための新しい階層型アノテーションパイプラインを提案する。 150時間を超える専門家の努力により、私たちは、ポイントクラウド入力やマルチチョイスQAなどのさまざまな評価設定をカバーした、SpaCE-10の811の屋内シーンに対して、5k以上のQAペアを取得しました。 SpaCE-10の共通MLLMの広範な評価を行い、最も先進的なMLLMでさえ、大きなマージンで人間より遅れていることを発見した。慎重な研究を通じて,MLLMコミュニティに利益をもたらすいくつかの重要な発見も得る。例えば,既存のMLLMの構成空間能力を著しく制限することを明らかにする。評価コードとベンチマークデータセットはhttps://github.com/Cuzyoung/SpaCE-10.comで公開されている。

関連論文リスト

Warehouse Spatial Question Answering with LLM Agent [18.821295196340383]
本研究では,強い空間推論能力を有するLLMエージェントシステムを提案する。本システムでは,LLMエージェントが空間推論やAPIツールのインタラクションを行うための複数のツールを統合している。本システムでは,オブジェクト検索,カウント,距離推定などのタスクにおいて高い精度と効率を実現する。
論文参考訳（メタデータ） (2025-07-14T20:05:55Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [44.42918139949761]
オープンな3次元空間における最先端基礎モデル(SOTA)の空間的推論能力を包括的に評価する新しいベンチマークOpen3DVQAを提案する。 Open3DVQAは9kのVQAサンプルで構成され、高忠実度都市シミュレーターにおける効率的な半自動ツールを用いて収集される。
論文参考訳（メタデータ） (2025-03-14T05:35:38Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。 MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
Grounding Multimodal Large Language Models in Actions [65.88208317380793]
我々はMLLMを異なる実施形態とその関連する行動空間にベストグラウンドする方法について研究する。連続的な動作に対しては、学習されたトークン化が十分なモデリング精度を実現することが示される。離散的な動作に対して、これらの動作をMLLMのネイティブな出力トークン空間と意味的に整合させることが、最も高いパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2024-06-12T06:12:04Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文参考訳（メタデータ） (2023-10-31T10:57:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。