論文の概要: MonoSR: Open-Vocabulary Spatial Reasoning from Monocular Images
- arxiv url: http://arxiv.org/abs/2511.19119v1
- Date: Mon, 24 Nov 2025 13:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.228128
- Title: MonoSR: Open-Vocabulary Spatial Reasoning from Monocular Images
- Title(参考訳): MonoSR: モノクロ画像からのオープンボキャブラリ空間推論
- Authors: Qirui Wang, Jingyi He, Yining Pan, Si Yong Yeo, Xulei Yang, Shijie Li,
- Abstract要約: MonoSRは、屋内、屋外、オブジェクト中心の設定を含むさまざまなシナリオにまたがるデータセットである。
我々は、その限界を明らかにするために、高度な視覚言語モデルを評価する。
これらの貢献は、現実世界、オープンワールド環境における単分子的空間的推論を促進する基盤をまとめて確立した。
- 参考スコア(独自算出の注目度): 23.140672476376565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning (SR), the ability to infer 3D spatial information from 2D inputs, is essential for real-world applications such as embodied AI and autonomous driving. However, existing research primarily focuses on indoor environments and typically relies on multi-view observations, which limits their generalizability to outdoor scenarios and constrains their applicability to monocular images, the most common real-world setting. In this work, we propose MonoSR, a large-scale monocular spatial reasoning dataset that spans diverse scenarios including indoor, outdoor, and object-centric settings, and supports multiple question types. MonoSR provides a path toward open-world monocular spatial reasoning. Beyond introducing the dataset, we evaluate advanced vision-language models to reveal their limitations on this challenging task. We further analyze whether auxiliary information is crucial for monocular spatial reasoning and offer practical guidance for designing future models. These contributions collectively establish a foundation for advancing monocular spatial reasoning in real-world, open-world environments.
- Abstract(参考訳): 空間推論(SR)は、2次元入力から3次元空間情報を推測する能力であり、具体化されたAIや自律運転のような現実世界の応用には不可欠である。
しかし、既存の研究は主に屋内環境に焦点を当てており、一般的には、屋外のシナリオへの一般化性を制限し、最も一般的な現実世界の設定であるモノクロ画像への適用性を制限する多視点観測に依存している。
本研究では,屋内,屋外,オブジェクト中心の設定を含む多様なシナリオにまたがる大規模単眼空間推論データセットであるMonoSRを提案し,複数の質問タイプをサポートする。
MonoSRは、オープンワールドの単分子空間推論への道を提供する。
データセットの導入以外にも、高度な視覚言語モデルを評価し、この課題に対する制限を明らかにする。
さらに,単眼空間推論において補助情報が不可欠であるか否かを解析し,将来のモデル設計のための実践的ガイダンスを提供する。
これらの貢献は、現実世界、オープンワールド環境における単分子的空間的推論を促進する基盤をまとめて確立した。
関連論文リスト
- Imagine in Space: Exploring the Frontier of Spatial Intelligence and Reasoning Efficiency in Vision Language Models [23.12717700882611]
空間的推論は人間の認知の基本的な構成要素です
現在の大規模言語モデル(LLM)と視覚言語モデル(VLM)は、論理的推論、問題解決、意思決定にまたがる顕著な推論能力を示している。
我々は空間状態の内部シミュレーションである想像力が空間世界モデルにおける支配的な推論機構であると仮定する。
論文 参考訳(メタデータ) (2025-11-16T03:09:55Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [96.1872246747684]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。