論文の概要: SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2506.14512v1
- Date: Tue, 17 Jun 2025 13:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.486309
- Title: SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks
- Title(参考訳): SIRI-Bench:複雑な推論タスクによるVLMの空間的知性向上
- Authors: Zijian Song, Xiaoxin Lin, Qiuming Huang, Guangrun Wang, Liang Lin,
- Abstract要約: SIRI-Benchは、映像ベースの推論タスクを通して視覚言語モデルの空間知性を評価するために設計されたベンチマークである。
SIRI-Benchは1K近いビデオクエスト・アンサー・トリプルで構成されており、各問題はリアルな3Dシーンに埋め込まれ、ビデオによってキャプチャされる。
大規模データ合成を容易にするために,自動シーン生成エンジンを開発した。
- 参考スコア(独自算出の注目度): 53.611256895338585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are experiencing rapid advancements in complex reasoning, exhibiting remarkable generalization in mathematics and programming. In contrast, while spatial intelligence is fundamental for Vision-Language Models (VLMs) in real-world interaction, the systematic evaluation of their complex reasoning ability within spatial contexts remains underexplored. To bridge this gap, we introduce SIRI-Bench, a benchmark designed to evaluate VLMs' spatial intelligence through video-based reasoning tasks. SIRI-Bench comprises nearly 1K video-question-answer triplets, where each problem is embedded in a realistic 3D scene and captured by video. By carefully designing questions and corresponding 3D scenes, our benchmark ensures that solving the questions requires both spatial comprehension for extracting information and high-level reasoning for deriving solutions, making it a challenging benchmark for evaluating VLMs. To facilitate large-scale data synthesis, we develop an Automatic Scene Creation Engine. This engine, leveraging multiple specialized LLM agents, can generate realistic 3D scenes from abstract math problems, ensuring faithfulness to the original descriptions. Experimental results reveal that state-of-the-art VLMs struggle significantly on SIRI-Bench, underscoring the challenge of spatial reasoning. We hope that our study will bring researchers' attention to spatially grounded reasoning and advance VLMs in visual problem-solving.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論において急速に進歩しており、数学やプログラミングにおいて顕著な一般化を示している。
対照的に、空間的知能は実世界の相互作用における視覚・言語モデル(VLM)の基本であるが、空間的文脈における複雑な推論能力の体系的評価は未解明のままである。
このギャップを埋めるために、ビデオベースの推論タスクを通じてVLMの空間的知性を評価するためのベンチマークであるSIRI-Benchを導入する。
SIRI-Benchは1K近いビデオクエスト・アンサー・トリプルで構成されており、各問題はリアルな3Dシーンに埋め込まれ、ビデオによってキャプチャされる。
質問やそれに対応する3Dシーンを慎重に設計することにより,質問の解決には空間的理解と解の導出のための高レベル推論の両方が必要であることが保証され,VLMを評価する上では困難なベンチマークとなる。
大規模データ合成を容易にするために,自動シーン生成エンジンを開発した。
このエンジンは、複数の特殊なLLMエージェントを活用し、抽象的な数学問題から現実的な3Dシーンを生成し、元の記述に忠実であることを保証する。
実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,空間的推論の課題を浮き彫りにした。
我々の研究は、視覚的問題解決における空間的根拠に基づく推論とVLMの進歩に研究者の注意を向けることを願っている。
関連論文リスト
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。
エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors [42.85605789984155]
空間的視覚的質問応答(VQA)において、最先端の空間的推論強化VLMを訓練する
本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。
我々の空間推論型VLMは、空間的VQAの様々な形態でうまく機能し、ピックやスタック、軌道計画といった下流ロボット作業に役立てることができる。
論文 参考訳(メタデータ) (2024-03-18T17:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。