論文の概要: Scaling Spatial Reasoning in MLLMs through Programmatic Data Synthesis
- arxiv url: http://arxiv.org/abs/2512.16237v1
- Date: Thu, 18 Dec 2025 06:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.954248
- Title: Scaling Spatial Reasoning in MLLMs through Programmatic Data Synthesis
- Title(参考訳): プログラムデータ合成によるMLLMにおける空間共振のスケーリング
- Authors: Zhi Helu, Huang Jingjing, Xu Wang, Xu Yangbin, Zhang Wanyue, Jiang Baoyang, Deng Shirui, Zhu Liang, Li Fangfang, Zhao Tiejun, Lin Yankai, Yao Yuan,
- Abstract要約: VLM(Vision-Language Models)はスケーラブルだが構造的に剛性があり、手動のアノテーションは言語的に多様だが拡張不可能である。
本稿では,シミュレータと大規模モデルを活用したこのジレンマを克服する新しいフレームワークSP-RITEを紹介する。
我々は,3つのシミュレータ,11k以上のシーン,300k以上の画像/映像のインストラクションチューニングペアを含むデータセットをキュレートした。
我々のデータに基づいて訓練されたVLMは、複数の空間ベンチマークにおいて大きな性能向上を達成できることを実証する。
- 参考スコア(独自算出の注目度): 8.60591720958037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied intelligence, a grand challenge in artificial intelligence, is fundamentally constrained by the limited spatial understanding and reasoning capabilities of current models. Prevailing efforts to address this through enhancing Vision-Language Models (VLMs) are trapped in a dilemma: template-based datasets are scalable but structurally rigid, while manual annotation is linguistically diverse but unscalable and, critically, computationally imprecise. We introduce SPRITE, a novel framework that overcomes this dilemma by leveraging simulators and large models to programmatically synthesize scalable, diverse, and high-quality spatial reasoning data. The core innovation of SPRITE is to reframe ground-truth generation as a code-generation task. We utilize LLMs to compile complex spatial questions into executable programs, which are then verified against high-precision scene meta-information extracted from simulators. This ensures our ground truth is both computationally precise and verifiable, while the generative power of LLMs provides vast linguistic diversity. Leveraging this pipeline, we have curated a dataset encompassing 3 simulators, 11k+ scenes, and 300k+ image/video instruction-tuning pairs. We demonstrate that a VLM trained on our data achieves significant performance gains on multiple spatial benchmarks and outperforms other open-source datasets of equivalent size. Furthermore, a scalability analysis confirms our hypothesis that overcoming the low-diversity nature of traditional template methods is essential for building robust, generalizable spatial intelligence. We will make the SPRITE framework code and the full 300k+ dataset publicly available to facilitate future research in spatial intelligence.
- Abstract(参考訳): 人工知能の大きな課題であるエンボディード・インテリジェンス(Embodied Intelligence)は、現在のモデルの空間的理解と推論能力の制限によって、基本的に制限されている。
テンプレートベースのデータセットはスケーラブルだが構造的に剛性があり、手動のアノテーションは言語的に多様だが、計算的に不正確である。
このジレンマを克服する新しいフレームワークであるSPRITEを導入し、シミュレータと大型モデルを利用して、スケーラブルで多様な、高品質な空間推論データをプログラムで合成する。
SPRITEの中核となる革新は、コード生成タスクとして、地平線生成を再構築することである。
LLMを用いて複雑な空間質問を実行可能なプログラムにコンパイルし、シミュレータから抽出した高精度なシーンメタ情報に対して検証する。
このことは、LLMの生成能力が言語的多様性を拡大する一方で、我々の根底にある真理は、計算的に正確かつ検証可能であることを保証します。
このパイプラインを活用することで、3つのシミュレータ、11k以上のシーン、300k以上のイメージ/ビデオインストラクションチューニングペアを含むデータセットをキュレートしました。
我々のデータに基づいてトレーニングされたVLMは、複数の空間ベンチマークにおいて大きなパフォーマンス向上を実現し、同等の大きさの他のオープンソースデータセットよりも優れていることを実証する。
さらに, 従来のテンプレート手法の低多様性性を克服することが, 堅牢で一般化可能な空間知能の構築に不可欠であるという仮説を, 拡張性解析により裏付ける。
我々はSPRITEフレームワークのコードと300k以上のデータセットを公開して、将来的な空間知能の研究を促進する。
関連論文リスト
- ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints [42.713620384054146]
本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-11-23T13:42:22Z) - SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - SmolRGPT: Efficient Spatial Reasoning for Warehouse Environments with 600M Parameters [0.0]
本稿では,領域レベルの空間的推論を明示的に組み込んだ,コンパクトな視覚言語アーキテクチャであるSmolRGPTを提案する。
SmolRGPTは3段階のカリキュラムを採用しており、視覚的特徴と言語的特徴を段階的に整列させ、空間的関係理解を可能にし、タスク固有のデータセットに適応する。
SmolRGPTは6億のパラメータしか持たず、倉庫の空間推論ベンチマークに挑戦し、より大きな代替品の性能にマッチまたは超える結果が得られることを示した。
論文 参考訳(メタデータ) (2025-09-18T23:55:51Z) - Can Large Language Models Integrate Spatial Data? Empirical Insights into Reasoning Strengths and Computational Weaknesses [11.330846631937671]
我々は,大規模で異質で騒々しい都市空間データセットの統合において,ドメインエキスパートに力を与えるために,大規模言語モデル(LLM)の適用について検討する。
LLMは空間的推論能力を示すが、マクロスケール環境と関連する計算幾何学的タスクを結びつけるのに苦労している。
この手法は, 正確な応答を保ちながら, 誤った初期応答の補正に極めて有効であることを示す。
論文 参考訳(メタデータ) (2025-08-07T03:44:20Z) - Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Spatial Knowledge Graph-Guided Multimodal Synthesis [78.11669780958657]
本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。
実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
論文 参考訳(メタデータ) (2025-05-28T17:50:21Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。