Fugu-MT 論文翻訳(概要): SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval

論文の概要: SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval

arxiv url: http://arxiv.org/abs/2601.14895v1
Date: Wed, 21 Jan 2026 11:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.34312
Title: SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval
Title（参考訳）: SpaceMem: メトリックアンコリングと高速検索を備えた統一3Dメモリ
Authors: Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen,
Abstract要約: SpaceMemはメモリ中心のシステムであり、三次元幾何学、意味論、言語を単一の表現に統一する。メートル法で拡張された屋内環境を再構築し、構造的な3Dアンカーを検出し、オープン語彙オブジェクトノードで階層メモリをポップアップさせる。特殊なセンサーを使わずに、言語誘導ナビゲーションやオブジェクト検索などの下流タスクをサポートする。
参考スコア（独自算出の注目度）: 19.68937683078205
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present SpatialMem, a memory-centric system that unifies 3D geometry, semantics, and language into a single, queryable representation. Starting from casually captured egocentric RGB video, SpatialMem reconstructs metrically scaled indoor environments, detects structural 3D anchors (walls, doors, windows) as the first-layer scaffold, and populates a hierarchical memory with open-vocabulary object nodes -- linking evidence patches, visual embeddings, and two-layer textual descriptions to 3D coordinates -- for compact storage and fast retrieval. This design enables interpretable reasoning over spatial relations (e.g., distance, direction, visibility) and supports downstream tasks such as language-guided navigation and object retrieval without specialized sensors. Experiments across three real-life indoor scenes demonstrate that SpatialMem maintains strong anchor-description-level navigation completion and hierarchical retrieval accuracy under increasing clutter and occlusion, offering an efficient and extensible framework for embodied spatial intelligence.
Abstract（参考訳）: 本研究では,3次元幾何学,意味論,言語を単一のクエリ可能な表現に統一するメモリ中心のシステムであるSpatialMemを提案する。カジュアルにキャプチャされたエゴセントリックなRGBビデオから始まり、SpatialMemはメトリックスケールした屋内環境を再構築し、構造的な3Dアンカー(壁、ドア、窓)を第1層の足場として検出し、オープンボキャブラリオブジェクトノードで階層的なメモリを投入する。この設計により、空間的関係(例えば、距離、方向、可視性)に対する解釈可能な推論が可能となり、特殊なセンサーを使わずに、言語誘導ナビゲーションやオブジェクト検索などの下流タスクをサポートする。 3つの実生活屋内シーンにおける実験により、SpatialMemは、空間知能を具現化するための効率的で拡張可能なフレームワークとして、きめ細やかさと閉塞性を高めた上で、強力なアンカー記述レベルのナビゲーション補完と階層的検索精度を維持していることが示された。

関連論文リスト

EAGLE: Episodic Appearance- and Geometry-aware Memory for Unified 2D-3D Visual Query Localization in Egocentric Vision [10.358197274014584]
本稿では,エゴセントリックな視覚における2D-3D視覚的クエリローカライゼーションを実現するために,エピソードな外観と幾何学的認識メモリを活用する新しいフレームワークを提案する。提案手法は,Ego4D-VQベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-11-11T09:11:21Z)
SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文参考訳（メタデータ） (2025-07-05T14:15:52Z)
Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory [72.75478398447396]
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-03T17:59:56Z)
RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation [10.067978300536486]
我々は,GPUで加速した幾何再構成をオープン語彙の視覚言語モデルとシームレスに統合するゼロショットフレームワークを開発した。トレーニングフリーシステムは、インクリメンタル処理と統合幾何系列更新により、優れた性能を実現する。
論文参考訳（メタデータ） (2025-05-21T11:07:25Z)
3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。 3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文参考訳（メタデータ） (2024-11-23T09:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。