論文の概要: SNOW: Spatio-Temporal Scene Understanding with World Knowledge for Open-World Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2512.16461v1
- Date: Thu, 18 Dec 2025 12:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.051658
- Title: SNOW: Spatio-Temporal Scene Understanding with World Knowledge for Open-World Embodied Reasoning
- Title(参考訳): SNOW: オープンワールド・エンボダイド推論のための世界知識を用いた時空間空間理解
- Authors: Tin Stribor Sohn, Maximilian Dillitzer, Jason J. Corso, Eric Sax,
- Abstract要約: 本稿では,VLMから派生したセマンティクスと点雲の幾何と時間的整合性を統合した4次元シーン理解フレームワークを提案する。
SNOWプロセスは、HDBSCANクラスタリングを使用して、同期された3Dポイントクラウドを同期し、セグメンテーション提案を生成する。
多様なベンチマークの実験により、SNOWは正確な4Dシーンの理解と空間的接地推論を可能にした。
- 参考スコア(独自算出の注目度): 11.93789125154006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous robotic systems require spatio-temporal understanding of dynamic environments to ensure reliable navigation and interaction. While Vision-Language Models (VLMs) provide open-world semantic priors, they lack grounding in 3D geometry and temporal dynamics. Conversely, geometric perception captures structure and motion but remains semantically sparse. We propose SNOW (Scene Understanding with Open-World Knowledge), a training-free and backbone-agnostic framework for unified 4D scene understanding that integrates VLM-derived semantics with point cloud geometry and temporal consistency. SNOW processes synchronized RGB images and 3D point clouds, using HDBSCAN clustering to generate object-level proposals that guide SAM2-based segmentation. Each segmented region is encoded through our proposed Spatio-Temporal Tokenized Patch Encoding (STEP), producing multimodal tokens that capture localized semantic, geometric, and temporal attributes. These tokens are incrementally integrated into a 4D Scene Graph (4DSG), which serves as 4D prior for downstream reasoning. A lightweight SLAM backend anchors all STEP tokens spatially in the environment, providing the global reference alignment, and ensuring unambiguous spatial grounding across time. The resulting 4DSG forms a queryable, unified world model through which VLMs can directly interpret spatial scene structure and temporal dynamics. Experiments on a diverse set of benchmarks demonstrate that SNOW enables precise 4D scene understanding and spatially grounded inference, thereby setting new state-of-the-art performance in several settings, highlighting the importance of structured 4D priors for embodied reasoning and autonomous robotics.
- Abstract(参考訳): 自律型ロボットシステムは、信頼性の高いナビゲーションとインタラクションを保証するために、動的環境の時空間的理解を必要とする。
Vision-Language Models (VLMs) はオープンワールドのセマンティックな前提を提供するが、3次元幾何学と時間力学の基盤は欠如している。
逆に、幾何学的知覚は構造と動きを捉えるが、意味的に疎いままである。
SNOW(Scene Understanding with Open-World Knowledge)は,VLM由来のセマンティクスを点雲幾何学と時間的一貫性と統合した4次元シーン理解のための,トレーニング不要でバックボーンに依存しないフレームワークである。
SNOWは、HDBSCANクラスタリングを使用して、同期RGBイメージと3Dポイントクラウドを処理し、SAM2ベースのセグメンテーションをガイドするオブジェクトレベルの提案を生成する。
各セグメンテーション領域は、提案した時空間Tokenized Patch Encoding (STEP) を通じて符号化され、局所的セマンティック、幾何学的、時間的属性をキャプチャするマルチモーダルトークンを生成する。
これらのトークンは、4D Scene Graph(4DSG)にインクリメンタルに統合される。
軽量SLAMバックエンドは、すべてのSTEPトークンを空間的にアンカーし、グローバルな参照アライメントを提供し、時間にわたってあいまいな空間的接地を確保する。
結果として得られる4DSGは、VLMが空間的シーン構造と時間的ダイナミクスを直接解釈できるクエリ可能で統一された世界モデルを形成する。
多様なベンチマークによる実験により、SNOWは正確な4Dシーン理解と空間的接地推論を可能にし、いくつかの設定で新しい最先端のパフォーマンスを設定し、具体的推論と自律ロボット工学における構造化された4D事前の重要性を強調している。
関連論文リスト
- 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer [40.29321632546414]
4DVGTは、トランスフォーマーベースの最初の4D言語グラウンドのためのフィードフォワード統合フレームワークである。
幾何学的知覚と言語アライメントを単一のアーキテクチャに統合する。
複数のダイナミックシーンを共同でトレーニングし、推論中に直接適用することができる。
論文 参考訳(メタデータ) (2025-12-04T18:15:27Z) - Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation [61.60600246983274]
既存の3Dおよび4Dアプローチは、通常、シーン幾何学を意味的理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
我々は4次元シーン理解と生成のための時間的認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:06:54Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。
このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。
4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文 参考訳(メタデータ) (2025-05-18T06:18:57Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。