論文の概要: OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2604.07296v1
- Date: Wed, 08 Apr 2026 17:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.650675
- Title: OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence
- Title(参考訳): OpenSpatial: 空間知性を強化するための原則付きデータエンジン
- Authors: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi,
- Abstract要約: 高品質、拡張性、幅広いタスクの多様性、最適化された効率性のために設計されたオープンソースのデータエンジンであるOpenSpatialを紹介します。
OpenSpatialは5つの基本的なタスクにまたがって包括的なデータ階層を構築するための基本的なプリミティブとして3Dバウンディングボックスを採用している。
我々は300万個の高忠実度サンプルからなる大規模データセットOpenSpatial-3Mをキュレートする。
- 参考スコア(独自算出の注目度): 81.95171718605265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
- Abstract(参考訳): 空間的理解は人間レベルの知能の基本的な基盤である。
しかしながら、現在の研究は主にドメイン固有のデータ生産に焦点を当てており、重要な空白を残している: 高品質な空間データの可能性を完全に解き放つことができる、原則化されたオープンソースのエンジンが存在しないこと。
このギャップを埋めるため、ロバストなデータ生成システムの設計原則を解明し、高品質、拡張性、タスクの多様性、最適化された効率性のために設計されたオープンソースのデータエンジンOpenSpatialを導入しました。
OpenSpatialは、空間計測(SM)、空間関係(SR)、カメラ知覚(CP)、マルチビュー一貫性(MC)、SAR(Scene-Aware Reasoning)という5つの基本的なタスクで包括的なデータ階層を構築するための基本的なプリミティブとして、3Dバウンディングボックスを採用している。
このスケーラブルなインフラストラクチャを活用して、300万の高忠実度サンプルからなる大規模データセットであるOpenSpatial-3Mをキュレートする。
大規模評価により,我々のデータセットでトレーニングした多目的モデルにより,空間推論ベンチマークの幅広い範囲にわたる最先端性能が達成された。
特に、最高のパフォーマンスモデルは、相対的に19%の実質的な平均的な改善を示している。
さらに,データ属性が空間知覚にどのように影響するかを系統的に分析する。
エンジンと3Mスケールのデータセットをオープンソース化することにより、空間知能の研究を加速するための堅牢な基盤を提供する。
関連論文リスト
- Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - Open3D-VQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [38.482463743451625]
本稿では,空から見た複雑な空間関係を推論するMLLMの能力を評価するための新しいベンチマークであるOpen3D-VQAを提案する。
このベンチマークは、7つの一般的な空間的推論タスクにまたがる73kのQAペアで構成されている。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。