論文の概要: SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning
- arxiv url: http://arxiv.org/abs/2411.17735v1
- Date: Sat, 23 Nov 2024 09:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 18:31:37.764115
- Title: SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning
- Title(参考訳): SnapMem: ボディード・エクスプロレーションと推論のためのスナップショットベースの3Dシーンメモリ
- Authors: Yuncong Yang, Han Yang, Jiachen Zhou, Peihao Chen, Hongxin Zhang, Yilun Du, Chuang Gan,
- Abstract要約: SnapMemは、新しいスナップショットベースのシーン表現で、エンボディエージェントの3Dシーンメモリとして機能する。
調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合する。
- 参考スコア(独自算出の注目度): 65.40458559619303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing compact and informative 3D scene representations is essential for effective embodied exploration and reasoning, especially in complex environments over long periods. Existing scene representations, such as object-centric 3D scene graphs, have significant limitations. They oversimplify spatial relationships by modeling scenes as individual objects, with inter-object relationships described by restrictive texts, making it difficult to answer queries that require nuanced spatial understanding. Furthermore, these representations lack natural mechanisms for active exploration and memory management, which hampers their application to lifelong autonomy. In this work, we propose SnapMem, a novel snapshot-based scene representation serving as 3D scene memory for embodied agents. SnapMem employs informative images, termed Memory Snapshots, to capture rich visual information of explored regions. It also integrates frontier-based exploration by introducing Frontier Snapshots-glimpses of unexplored areas-that enable agents to make informed exploration decisions by considering both known and potential new information. Meanwhile, to support lifelong memory in active exploration settings, we further present an incremental construction pipeline for SnapMem, as well as an effective memory retrieval technique for memory management. Experimental results on three benchmarks demonstrate that SnapMem significantly enhances agents' exploration and reasoning capabilities in 3D environments over extended periods, highlighting its potential for advancing applications in embodied AI.
- Abstract(参考訳): コンパクトで情報的な3次元シーン表現の構築は、特に長期にわたる複雑な環境において、効果的な具体的探索と推論に不可欠である。
オブジェクト中心の3Dシーングラフのような既存のシーン表現には、大きな制限がある。
彼らは、シーンを個々のオブジェクトとしてモデル化することで空間的関係を単純化し、制約のあるテキストによって記述されたオブジェクト間関係により、ニュアンスな空間的理解を必要とするクエリに答えることが困難になる。
さらに、これらの表現には、活動的な探索とメモリ管理の自然なメカニズムが欠如しており、生涯にわたる自律性への応用を妨げている。
本研究では,3次元シーンメモリとして機能する新しいスナップショットベースシーン表現であるSnapMemを提案する。
SnapMemは、調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合することで、エージェントが既知の情報と潜在的な新しい情報の両方を考慮して、情報的な探索決定を行うことを可能にする。
一方、活動的な探索環境での生涯記憶をサポートするため、SnapMem用のインクリメンタルな構築パイプラインや、メモリ管理のための効果的なメモリ検索技術も提示する。
3つのベンチマークによる実験結果によると、SnapMemは3D環境におけるエージェントの探索と推論能力を長期にわたって大幅に向上し、エンボディAIにおけるアプリケーションの進歩の可能性を強調している。
関連論文リスト
- DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction [17.38916914453357]
2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。
モノクロ3DのtextbfOccupancy 予測のための textbfGlobal クエリベースのネットワーク textbfDGOcc を提案する。
提案手法は,GPUと時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測における最高の性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T07:44:55Z) - Learning 3D Scene Analogies with Neural Contextual Scene Maps [17.545689536966265]
本稿では,3次元空間における関係共通点を特定するための教材を提案する。
ポイントワイドやオブジェクトワイドの表現に焦点をあてるのではなく、3Dシーンのアナロジーを導入する。
論文 参考訳(メタデータ) (2025-03-20T06:49:33Z) - FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。
現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文 参考訳(メタデータ) (2025-03-10T23:13:35Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [17.94511890272007]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences [70.0873383646651]
LSceneLLMはタスク関連領域を自動的に識別する適応型フレームワークである。
濃密なトークンセレクタは、LDMの注意マップを調べて、命令入力の視覚的嗜好を特定する。
適応自己保持モジュールを利用して、粗い粒度と選択されたきめ細かい視覚情報を融合する。
論文 参考訳(メタデータ) (2024-12-02T09:07:57Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。
我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-12T07:57:58Z) - Hierarchical Representations and Explicit Memory: Learning Effective
Navigation Policies on 3D Scene Graphs using Graph Neural Networks [16.19099481411921]
本稿では,ハイレベルな階層表現を活用してナビゲーションポリシーを学習する強化学習フレームワークを提案する。
本手法は,シーングラフの各ノードに対して,ロボット軌道の記憶を明示的に保持しつつ,占有度と意味的内容をキャプチャする機能を利用する。
論文 参考訳(メタデータ) (2021-08-02T21:21:27Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。