Fugu-MT 論文翻訳(概要): SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks

論文の概要: SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks

arxiv url: http://arxiv.org/abs/2506.14512v2
Date: Mon, 06 Oct 2025 04:31:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 14:28:10.179581
Title: SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks
Title（参考訳）: SIRI-Bench:複雑な推論タスクによるVLMの空間的知性向上
Authors: Zijian Song, Xiaoxin Lin, Qiuming Huang, Guangrun Wang, Liang Lin,
Abstract要約: SIRI-Benchは視覚言語モデルの構造的空間知性を評価するためのベンチマークである。 Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。
参考スコア（独自算出の注目度）: 51.774165536666864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have undergone rapid progress, largely attributed to reinforcement learning on complex reasoning tasks. In contrast, while spatial intelligence is fundamental for Vision-Language Models (VLMs) in real-world interaction, the systematic study of their complex spatial reasoning remains underexplored. To bridge this gap, we introduce SIRI-Bench, a benchmark designed to evaluate VLMs' structural spatial intelligence through spatial-grounded reasoning tasks. SIRI-Bench comprises 9,000 video-question-answer triplets, where each problem is embedded in a realistic 3D scene. The benchmark is carefully designed so that solving each problem requires both spatial comprehension and structural reasoning. To facilitate large-scale data synthesis, we develop an Automatic Scene Creation Engine that employs collaborative LLM agents to translate abstract mathematical problems into faithful 3D scenes. Experimental results reveal that state-of-the-art VLMs struggle significantly on SIRI-Bench, underscoring the challenge of structural spatial reasoning. We hope that our study will bring researchers' attention to spatially grounded reasoning and advance VLMs in visual problem-solving.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複雑な推論タスクに関する強化学習による、急速に進歩している。対照的に、空間知能は実世界の相互作用における視覚・言語モデル(VLM)の基本であるが、それらの複雑な空間的推論の体系的研究はいまだ過小評価されている。このギャップを埋めるために,VLMの構造的空間的知性を評価するためのベンチマークであるSIRI-Benchを導入する。 SIRI-Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。このベンチマークは、それぞれの問題を解決するために、空間的理解と構造的推論の両方を必要とするように慎重に設計されている。大規模データ合成を容易にするために,協調的なLLMエージェントを用いて抽象数学的問題を忠実な3Dシーンに変換する自動シーン生成エンジンを開発した。実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。我々の研究は、視覚的問題解決における空間的根拠に基づく推論とVLMの進歩に研究者の注意を向けることを願っている。

関連論文リスト

Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文参考訳（メタデータ） (2025-06-04T07:36:33Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文参考訳（メタデータ） (2025-02-05T14:29:01Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors [42.85605789984155]
空間的視覚的質問応答(VQA)において、最先端の空間的推論強化VLMを訓練する本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。我々の空間推論型VLMは、空間的VQAの様々な形態でうまく機能し、ピックやスタック、軌道計画といった下流ロボット作業に役立てることができる。
論文参考訳（メタデータ） (2024-03-18T17:38:29Z)
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文参考訳（メタデータ） (2024-01-22T18:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。