論文の概要: SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval
- arxiv url: http://arxiv.org/abs/2601.14895v1
- Date: Wed, 21 Jan 2026 11:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.34312
- Title: SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval
- Title(参考訳): SpaceMem: メトリックアンコリングと高速検索を備えた統一3Dメモリ
- Authors: Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen,
- Abstract要約: SpaceMemはメモリ中心のシステムであり、三次元幾何学、意味論、言語を単一の表現に統一する。
メートル法で拡張された屋内環境を再構築し、構造的な3Dアンカーを検出し、オープン語彙オブジェクトノードで階層メモリをポップアップさせる。
特殊なセンサーを使わずに、言語誘導ナビゲーションやオブジェクト検索などの下流タスクをサポートする。
- 参考スコア(独自算出の注目度): 19.68937683078205
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present SpatialMem, a memory-centric system that unifies 3D geometry, semantics, and language into a single, queryable representation. Starting from casually captured egocentric RGB video, SpatialMem reconstructs metrically scaled indoor environments, detects structural 3D anchors (walls, doors, windows) as the first-layer scaffold, and populates a hierarchical memory with open-vocabulary object nodes -- linking evidence patches, visual embeddings, and two-layer textual descriptions to 3D coordinates -- for compact storage and fast retrieval. This design enables interpretable reasoning over spatial relations (e.g., distance, direction, visibility) and supports downstream tasks such as language-guided navigation and object retrieval without specialized sensors. Experiments across three real-life indoor scenes demonstrate that SpatialMem maintains strong anchor-description-level navigation completion and hierarchical retrieval accuracy under increasing clutter and occlusion, offering an efficient and extensible framework for embodied spatial intelligence.
- Abstract(参考訳): 本研究では,3次元幾何学,意味論,言語を単一のクエリ可能な表現に統一するメモリ中心のシステムであるSpatialMemを提案する。
カジュアルにキャプチャされたエゴセントリックなRGBビデオから始まり、SpatialMemはメトリックスケールした屋内環境を再構築し、構造的な3Dアンカー(壁、ドア、窓)を第1層の足場として検出し、オープンボキャブラリオブジェクトノードで階層的なメモリを投入する。
この設計により、空間的関係(例えば、距離、方向、可視性)に対する解釈可能な推論が可能となり、特殊なセンサーを使わずに、言語誘導ナビゲーションやオブジェクト検索などの下流タスクをサポートする。
3つの実生活屋内シーンにおける実験により、SpatialMemは、空間知能を具現化するための効率的で拡張可能なフレームワークとして、きめ細やかさと閉塞性を高めた上で、強力なアンカー記述レベルのナビゲーション補完と階層的検索精度を維持していることが示された。
関連論文リスト
- Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement [12.260126771415019]
タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。
TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:36:37Z) - EAGLE: Episodic Appearance- and Geometry-aware Memory for Unified 2D-3D Visual Query Localization in Egocentric Vision [10.358197274014584]
本稿では,エゴセントリックな視覚における2D-3D視覚的クエリローカライゼーションを実現するために,エピソードな外観と幾何学的認識メモリを活用する新しいフレームワークを提案する。
提案手法は,Ego4D-VQベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-11T09:11:21Z) - Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos [69.21508595833623]
Ov3Rは、RGBビデオストリームからのセマンティック3D再構成のためのフレームワークである。
CLIP3Rは、オブジェクトレベルのセマンティクスを埋め込みながら、重複するクリップから高密度なポイントマップを予測する。
2D-3D OVSは、空間的、幾何学的、意味的な手がかりを統合した融合記述子を学習することで、2D機能を3Dに持ち上げる。
論文 参考訳(メタデータ) (2025-07-29T17:55:58Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory [72.75478398447396]
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-03T17:59:56Z) - RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation [10.067978300536486]
我々は,GPUで加速した幾何再構成をオープン語彙の視覚言語モデルとシームレスに統合するゼロショットフレームワークを開発した。
トレーニングフリーシステムは、インクリメンタル処理と統合幾何系列更新により、優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:07:25Z) - 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。
さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文 参考訳(メタデータ) (2024-11-23T09:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。