論文の概要: SpatialReasoner: Active Perception for Large-Scale 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2512.03284v1
- Date: Tue, 02 Dec 2025 22:49:01 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:13.112809
- Title: SpatialReasoner: Active Perception for Large-Scale 3D Scene Understanding
- Title(参考訳): SpaceReasoner:大規模3Dシーン理解のためのアクティブパーセプション
- Authors: Hongpei Zheng, Shijie Li, Yanran Li, Hujun Yin,
- Abstract要約: H$2$U3D (Holistic House Understanding in 3D) は3次元視覚質問応答データセットである。
また,空間ツールを自律的に起動して3Dシーンを探索する能動的知覚フレームワークであるSpatialReasonerを提案する。
- 参考スコア(独自算出の注目度): 13.974575930417709
- License:
- Abstract: Spatial reasoning in large-scale 3D environments remains challenging for current vision-language models, which are typically constrained to room-scale scenarios. We introduce H$^2$U3D (Holistic House Understanding in 3D), a 3D visual question answering dataset designed for house-scale scene understanding. H$^2$U3D features multi-floor environments spanning up to three floors and 10-20 rooms, covering more than 300 m$^2$. Through an automated annotation pipeline, it constructs hierarchical coarse-to-fine visual representations and generates diverse question-answer pairs with chain-of-thought annotations. We further propose SpatialReasoner, an active perception framework that autonomously invokes spatial tools to explore 3D scenes based on textual queries. SpatialReasoner is trained through a two-stage strategy: a supervised cold start followed by reinforcement learning with an adaptive exploration reward that promotes efficient exploration while discouraging redundant operations. Extensive experiments demonstrate that SpatialReasoner achieves state-of-the-art performance on H$^2$U3D, outperforming strong baselines including GPT-4o and Gemini-2.5-Pro. Notably, our method attains superior results while using only 3-4 images in total on average, compared to baselines requiring 16+ images, highlighting the effectiveness of our coarse-to-fine active exploration paradigm.
- Abstract(参考訳): 大規模3次元環境における空間的推論は、通常部屋スケールのシナリオに制約される現在の視覚言語モデルでは依然として困難である。
H$^2$U3D (Holistic House Understanding in 3D) は3次元視覚質問応答データセットである。
H$^2$U3Dは、300m$^2$を超える3階と10-20室までのマルチフロア環境を特徴としている。
自動アノテーションパイプラインにより、階層的な粗い視覚表現を構築し、チェーン・オブ・シントアノテーションを用いた多様な質問応答ペアを生成する。
さらに,テキストクエリに基づく3次元シーン探索のための空間ツールを自律的に起動する能動的認識フレームワークであるSpatialReasonerを提案する。
SpaceReasonerは、2段階の戦略によって訓練される。教師付きコールドスタートに続いて、冗長な操作を回避しながら効率的な探索を促進する適応探索報酬を備えた強化学習を行う。
広汎な実験により、SpatialReasonerはH$2$U3Dの最先端性能を達成し、GPT-4oやGemini-2.5-Proなどの強力なベースラインを上回った。
提案手法は,16以上の画像を必要とするベースラインと比較して,平均して3~4枚の画像しか使用せず,より優れた結果が得られる。
関連論文リスト
- Sparse Multiview Open-Vocabulary 3D Detection [27.57172918603858]
3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。
本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。
我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
論文 参考訳(メタデータ) (2025-09-19T12:22:24Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - SPAZER: Spatial-Semantic Progressive Reasoning Agent for Zero-shot 3D Visual Grounding [44.82926606018167]
3D Visual Groundingは、自然言語クエリに基づいて、ターゲットオブジェクトを3Dシーン内にローカライズすることを目的としている。
本稿では,VLM駆動型エージェントであるSPAZERについて述べる。
ScanRefer と Nr3D ベンチマークの実験では、SPAZER が従来のゼロショット法よりも大幅に優れていたことが示されている。
論文 参考訳(メタデータ) (2025-06-27T05:34:57Z) - SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting [104.83629308412958]
3D Gaussian Splatting (3DGS) は、シーン幾何学、外観、意味論の高性能かつ効率的な符号化として機能する。
3次元空間で直接3つの手法群を体系的に評価する,最初の大規模ベンチマークを提案する。
結果は、特にシーン固有の制限を緩和する上で、一般化可能なパラダイムの明確な利点を示している。
論文 参考訳(メタデータ) (2025-06-10T11:52:45Z) - From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes [30.015378490907988]
Anywhere3D-Benchは2,886個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。
我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-05T11:28:02Z) - H3O: Hyper-Efficient 3D Occupancy Prediction with Heterogeneous Supervision [41.529084775662355]
本稿では3次元占有予測手法であるH3Oを提案する。H3Oは高効率なアーキテクチャ設計を特徴とし,現在の最先端手法と比較して計算コストを大幅に削減する。
特に, マルチカメラ深度推定, セマンティックセグメンテーション, および表面正規推定を, 対応する2次元ラベルで教師する可変ボリュームレンダリングにより統合する。
論文 参考訳(メタデータ) (2025-03-06T03:27:14Z) - SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。