論文の概要: SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
- arxiv url: http://arxiv.org/abs/2510.09606v1
- Date: Fri, 10 Oct 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.513446
- Title: SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
- Title(参考訳): SpaceVista:mmからkmまで全スケールの空間推論
- Authors: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue,
- Abstract要約: 本稿は,2つの課題に対処することで,多様なシナリオをまたいだ空間的推論を促進することを目的とする。
屋内の3Dスキャンと、データセットのキュレーションのための労働集約的な手作業アノテーションに大きく依存する。
本稿では,構造化空間推論システム,スケール・アウェア・モデリング,プログレッシブ・トレーニング・パラダイムを統合した総合的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 43.506658643163405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the current surge in spatial reasoning explorations, researchers have made significant progress in understanding indoor scenes, but still struggle with diverse applications such as robotics and autonomous driving. This paper aims to advance all-scale spatial reasoning across diverse scenarios by tackling two key challenges: 1) the heavy reliance on indoor 3D scans and labor-intensive manual annotations for dataset curation; 2) the absence of effective all-scale scene modeling, which often leads to overfitting to individual scenes. In this paper, we introduce a holistic solution that integrates a structured spatial reasoning knowledge system, scale-aware modeling, and a progressive training paradigm, as the first attempt to broaden the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using a task-specific, specialist-driven automated pipeline, we curate over 38K video scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising approximately 1M spatial QA pairs spanning 19 diverse task types. While specialist models can inject useful domain knowledge, they are not reliable for evaluation. We then build an all-scale benchmark with precise annotations by manually recording, retrieving, and assembling video-based data. However, naive training with SpaceVista-1M often yields suboptimal results due to the potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a spatial reasoning model that accepts dense inputs beyond semantics and uses scale as an anchor for scale-aware experts and progressive rewards. Finally, extensive evaluations across 5 benchmarks, including our SpaceVista-Bench, demonstrate competitive performance, showcasing strong generalization across all scales and scenarios. Our dataset, model, and benchmark will be released on https://peiwensun2000.github.io/mm2km .
- Abstract(参考訳): 現在、空間推論の探索が急増しているため、研究者は屋内シーンの理解に大きな進歩を遂げてきたが、ロボット工学や自律運転といった様々な応用に苦戦している。
本稿は,2つの課題に取り組むことで,多様なシナリオをまたいだ空間的推論を促進することを目的としている。
1) 屋内3Dスキャンと労働集約的マニュアルによるデータセットのキュレーションへの依存度
2) 効果的全スケールシーンモデリングが欠如しており, 個々のシーンに過度に適合することがしばしばある。
本稿では,MLLMの空間的知性を最大限に活用するための最初の試みとして,構造化空間推論知識システム,スケール・アウェア・モデリング,プログレッシブ・トレーニングパラダイムを統合した総合的なソリューションを提案する。
タスク固有の専門的な自動パイプラインを使用して、5つの空間スケールで38K以上のビデオシーンをキュレートし、19のタスクタイプにまたがる約1Mの空間QAペアからなるデータセットであるSpaceVista-1Mを作成します。
専門家モデルは有用なドメイン知識を注入できるが、評価には信頼性がない。
次に、ビデオベースのデータを手動で記録、検索、組み立てすることで、正確なアノテーションを備えた全スケールのベンチマークを構築します。
しかし、SpaceVista-1Mによる素早い訓練は、潜在的な知識の衝突のために、しばしば準最適結果をもたらす。
そこで我々は,空間推論モデルであるSpaceVista-7Bを紹介した。
最後に、SpaceVista-Benchを含む5つのベンチマークにわたる広範な評価は、競争力のあるパフォーマンスを示し、すべてのスケールとシナリオにわたる強力な一般化を示している。
私たちのデータセット、モデル、ベンチマークはhttps://peiwensun2000.github.io/mm2km でリリースされます。
関連論文リスト
- SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。
本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。
我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文 参考訳(メタデータ) (2025-07-27T08:31:24Z) - Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs [19.70116190496693]
MLLM(Multimodal large language model)は、2次元の視覚的理解に優れるが、3次元空間を推論する能力には限界がある。
本研究では,1)新しい教師付き微調整データセットの導入,2)屋内シーンに焦点を当てた新しい評価ベンチマークを導入するために,オープンセットアノテーションを用いた大規模高品質3Dシーンデータを活用する。
論文 参考訳(メタデータ) (2025-03-17T12:34:22Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。