論文の概要: SpatialForge: Bootstrapping 3D-Aware Spatial Reasoning from Open-World 2D Images
- arxiv url: http://arxiv.org/abs/2605.11462v1
- Date: Tue, 12 May 2026 03:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.546602
- Title: SpatialForge: Bootstrapping 3D-Aware Spatial Reasoning from Open-World 2D Images
- Title(参考訳): SpaceForge: オープンワールド2D画像からの3D認識空間推論のブートストラップ
- Authors: Zishan Liu, Ruoxi Zang, Yanglin Zhang, Wei Liu, Yin Zhang, Jian Yao, Jiayin Zheng, Zhengzhe Liu,
- Abstract要約: 本研究では,2次元画像から空間的推論制御へ変換するスケーラブルなデータ合成パイプラインを提案する。
本研究では,空間的推論を知覚と関係に分解し,深度,レイアウト,視点に依存した推論を網羅した構造化された監視信号を構築する。
- 参考スコア(独自算出の注目度): 16.243887520581925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (VLMs) have demonstrated exceptional semantic understanding, yet these models consistently struggle with spatial reasoning, often failing at fundamental geometric tasks such as depth ordering and precise coordinate grounding. Recent efforts introduce spatial supervision from scene-centric datasets (e.g., multi-view scans or indoor video), but are constrained by the limited number of underlying scenes. As a result, the scale and diversity of such data remain significantly smaller than those of web-scale 2D image collections. To address this limitation, we propose SpatialForge, a scalable data synthesis pipeline that transforms in-the-wild 2D images into spatial reasoning supervision. Our approach decomposes spatial reasoning into perception and relation, and constructs structured supervision signals covering depth, layout, and viewpoint-dependent reasoning, with automatic verification to ensure data quality. Based on this pipeline, we build SpatialForge-10M, a large-scale dataset containing 10 million spatial QA pairs. Extensive experiments across multiple spatial reasoning benchmarks demonstrate that training on SpatialForge-10M significantly improves the spatial reasoning ability of standard VLMs, highlighting the effectiveness of scaling 2D data for 3D-aware spatial reasoning.
- Abstract(参考訳): VLM(Large Vision-Language Models)の最近の進歩は、例外的な意味論的理解を示しているが、これらのモデルは空間的推論に一貫して苦労し、しばしば深度順序付けや正確な座標接地のような基本的な幾何学的タスクで失敗する。
近年の取り組みでは、シーン中心のデータセット(例えば、マルチビュースキャン、屋内ビデオ)から空間的監視を導入するが、背景となるシーンの限られた数に制約される。
その結果、これらのデータのスケールと多様性は、Webスケールの2D画像コレクションよりも著しく小さいままである。
この制限に対処するため、我々は、Wild 2Dイメージを空間推論の監督に変換するスケーラブルなデータ合成パイプラインであるSpatialForgeを提案する。
提案手法は空間的推論を知覚と関係に分解し,深度,レイアウト,視点に依存した推論を含む構造化された監視信号を構築し,データ品質を確保するための自動検証を行う。
このパイプラインに基づいて,1000万の空間QAペアを含む大規模データセットであるSpatialForge-10Mを構築した。
複数の空間的推論ベンチマークにおいて、空間Forge-10Mのトレーニングは標準VLMの空間的推論能力を大幅に改善し、3次元空間的推論のための2次元データのスケーリングの有効性を強調した。
関連論文リスト
- Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence [78.1406635199656]
Holi-Spatialは、人間の介入なしに生のビデオ入力から構築された、初めて完全に自動化され、大規模で、空間対応のマルチモーダルデータセットである。
Holi-Spatial-4Mは、12K最適化された3DGSシーン、1.3Mの2Dマスク、320Kの3Dバウンディングボックス、320Kのインスタンスキャプション、1.2Mの3Dグラウンドインスタンス、1.2Mの空間QAペアを含む、最初の大規模で高品質な3Dセマンティックデータセットである。
論文 参考訳(メタデータ) (2026-03-08T14:49:20Z) - RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing [71.75704516333394]
本稿では、RS3DBenchと呼ばれるリモートセンシング画像の3次元理解のためのビジュアルベンチマークを提案する。
このデータセットは、54,951対のリモートセンシング画像とピクセルレベルの一致した深度マップを含んでいる。
安定拡散から導かれるリモートセンシング深度推定モデルを導入し,そのマルチモーダル融合機能を利用する。
論文 参考訳(メタデータ) (2025-09-23T11:20:51Z) - Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.547597353581594]
本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。
複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。
さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-29T04:51:50Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。