論文の概要: From Where Things Are to What They Are For: Benchmarking Spatial-Functional Intelligence in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2605.02130v1
- Date: Mon, 04 May 2026 01:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.098084
- Title: From Where Things Are to What They Are For: Benchmarking Spatial-Functional Intelligence in Multimodal LLMs
- Title(参考訳): 場所から目的へ:マルチモーダルLLMにおける空間文インテリジェンスのベンチマーク
- Authors: Le Zhang, Jihan Yang, Soundarya Krishnan, Jimit Majmudar, Xiou Ge, Prasoon Puri, Prathamesh Nandkishor Saraf, Shruti Bhargava, Dhivya Piraviperumal, Yinan Ling, Cindy Pan, Hong Yu, Aishwarya Agrawal, Bo-Hsiang Tseng,
- Abstract要約: 本稿では,1500以上の専門家に注釈を付けたビデオベースのベンチマークであるSFI-Benchについて紹介する。
SFI-Benchは先進的推論の2つの相補的次元を体系的に評価する。
- 参考スコア(独自算出の注目度): 19.943841049221625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-level agentic intelligence extends beyond low-level geometric perception, evolving from recognizing where things are to understanding what they are for. While existing benchmarks effectively evaluate the geometric perception capabilities of multimodal large language models (MLLMs), they fall short of probing the higher-order cognitive abilities required for grounded intelligence. To address this gap, we introduce the Spatial-Functional Intelligence Benchmark (SFI-Bench), a video-based benchmark with over 1,500 expert-annotated questions derived from diverse egocentric indoor video scans. SFI-Bench systematically evaluates two complementary dimensions of advanced reasoning: (1) Structured Spatial Reasoning, which requires understanding complex layouts and forming coherent spatial representations, and (2) Functional Reasoning, which involves inferring object affordances and their context-dependent utility. The benchmark includes tasks such as conditional counting, multi-hop relational reasoning, functional pairing, and knowledge-grounded troubleshooting, directly challenging models to integrate perception, memory, and inference. Our experiments reveal that current MLLMs consistently struggle to combine spatial memory with functional reasoning and external knowledge, highlighting a critical bottleneck in achieving grounded intelligence. SFI-Bench therefore provides a diagnostic tool for measuring progress toward more cognitively capable and truly grounded multimodal agents.
- Abstract(参考訳): 人間レベルのエージェントインテリジェンスは、低レベルの幾何学的知覚を超えて、物事がどこにあるかを認識して、目的が何であるかを理解するように進化します。
既存のベンチマークでは、マルチモーダル大言語モデル(MLLM)の幾何学的知覚能力を効果的に評価しているが、基底知能に必要とされる高次認知能力の検証には至らなかった。
このギャップに対処するために,多種多様なエゴセントリックな屋内ビデオスキャンから1500以上の専門家が回答したビデオベースのベンチマークであるSFI-Bench(Spatial-Functional Intelligence Benchmark)を紹介する。
SFI-Bench は,(1) 複雑なレイアウトの理解とコヒーレントな空間表現の形成を必要とする構造化空間推論,(2) オブジェクトの空き度と文脈依存的ユーティリティを推定する機能推論の2つの相補的次元を体系的に評価する。
このベンチマークには、条件付きカウント、マルチホップリレーショナル推論、機能的ペアリング、知識に基づくトラブルシューティングといったタスクが含まれており、知覚、記憶、推論を統合するために直接挑戦するモデルが含まれている。
実験の結果,現在のMLLMは,空間記憶と機能的推論と外的知識を一貫して組み合わせることに苦慮し,基盤となる知性を達成する上で重要なボトルネックを浮き彫りにしていることがわかった。
したがって、SFI-Benchは、より認知能力が高く、真に接地されたマルチモーダルエージェントへの進歩を測定するための診断ツールを提供する。
関連論文リスト
- SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition [28.17858615204594]
Grounded Multimodal Named Entity Recognition (GMNER)は、名前付きエンティティを抽出し、画像とテキストのペア内で視覚領域をローカライズすることを目的としている。
オープンワールドのソーシャルメディアプラットフォームでは、GMNERは長い尾を持ち、急速に進化し、目に見えない存在であるため、依然として挑戦的だ。
本研究では、内部知識の活用と外部知識探索を調和させるエンドツーエンドのエージェントフレームワークであるSAKEを提案する。
論文 参考訳(メタデータ) (2026-04-22T03:17:36Z) - SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning [51.63457948949102]
マルチモーダル大規模言語モデル(MLLM)の限られた空間的理解を克服する枠組みを開発する。
この枠組みは,2次元の手がかりが不十分と判断された場合の推論において,幾何学的特徴を自律的に関与させることにより,知覚的不整合を意識したモデルを実現する。
論文 参考訳(メタデータ) (2026-03-11T03:32:12Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition [19.526371771173064]
空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と対話できるようにする。
既存のベンチマークはしばしば空間認知を単純化し、それを1次元の計量に還元する。
本稿では,空間知能を5つの段階に分解する階層的空間認知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T15:04:18Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。