論文の概要: SpatialMosaic: A Multiview VLM Dataset for Partial Visibility
- arxiv url: http://arxiv.org/abs/2512.23365v1
- Date: Mon, 29 Dec 2025 10:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.467218
- Title: SpatialMosaic: A Multiview VLM Dataset for Partial Visibility
- Title(参考訳): 空間モザイク:部分可視性のためのマルチビューVLMデータセット
- Authors: Kanghee Lee, Injae Lee, Minseok Kwak, Kwonyoung Ryu, Jungi Hong, Jaesik Park,
- Abstract要約: 本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。
本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。
また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
- 参考スコア(独自算出の注目度): 25.874299974251965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Multimodal Large Language Models (MLLMs) has unlocked the potential for enhanced 3D scene understanding and spatial reasoning. However, existing approaches often rely on pre-constructed 3D representations or off-the-shelf reconstruction pipelines, which constrain scalability and real-world applicability. A recent line of work explores learning spatial reasoning directly from multi-view images, enabling Vision-Language Models (VLMs) to understand 3D scenes without explicit 3D reconstructions. Nevertheless, key challenges that frequently arise in real-world environments, such as partial visibility, occlusion, and low-overlap conditions that require spatial reasoning from fragmented visual cues, remain under-explored. To address these limitations, we propose a scalable multi-view data generation and annotation pipeline that constructs realistic spatial reasoning QAs, resulting in SpatialMosaic, a comprehensive instruction-tuning dataset featuring 2M QA pairs. We further introduce SpatialMosaic-Bench, a challenging benchmark for evaluating multi-view spatial reasoning under realistic and challenging scenarios, consisting of 1M QA pairs across 6 tasks. In addition, we present SpatialMosaicVLM, a hybrid framework that integrates 3D reconstruction models as geometry encoders within VLMs for robust spatial reasoning. Extensive experiments demonstrate that our proposed dataset and VQA tasks effectively enhance spatial reasoning under challenging multi-view conditions, validating the effectiveness of our data generation pipeline in constructing realistic and diverse QA pairs. Code and dataset will be available soon.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、3Dシーンの理解と空間的推論が強化された。
しかし、既存のアプローチは、しばしば、事前構築された3D表現またはオフザシェルフ再構築パイプラインに依存しており、スケーラビリティと実世界の適用性を制約している。
最近の研究は、多視点画像から直接空間的推論を学習し、視覚言語モデル(VLM)が明示的な3D再構成なしに3Dシーンを理解できるようにしている。
それでも、断片化された視覚的手がかりから空間的推論を必要とする部分的な可視性、閉塞性、低オーバーラップ条件といった、現実世界の環境において頻繁に発生する重要な課題は、未探索のままである。
これらの制約に対処するために,現実的な空間的推論QAを構築するスケーラブルなマルチビューデータ生成およびアノテーションパイプラインを提案し,その結果,2M QAペアを備えた総合的な命令チューニングデータセットであるSpatialMosaicが得られた。
さらに、現実的で挑戦的なシナリオ下で、多視点空間推論を評価するための挑戦的なベンチマークであるSpatialMosaic-Benchを紹介する。
さらに,3次元再構成モデルをVLM内の幾何エンコーダとして統合し,ロバストな空間推論を行うハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
大規模な実験により,提案したデータセットとVQAタスクは,課題の多いマルチビュー条件下での空間的推論を効果的に向上し,現実的で多様なQAペアを構築する上でのデータ生成パイプラインの有効性を検証した。
コードとデータセットは近く提供される。
関連論文リスト
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。