論文の概要: SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning
- arxiv url: http://arxiv.org/abs/2411.17735v1
- Date: Sat, 23 Nov 2024 09:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:41.266521
- Title: SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning
- Title(参考訳): SnapMem: ボディード・エクスプロレーションと推論のためのスナップショットベースの3Dシーンメモリ
- Authors: Yuncong Yang, Han Yang, Jiachen Zhou, Peihao Chen, Hongxin Zhang, Yilun Du, Chuang Gan,
- Abstract要約: SnapMemは、新しいスナップショットベースのシーン表現で、エンボディエージェントの3Dシーンメモリとして機能する。
調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合する。
- 参考スコア(独自算出の注目度): 65.40458559619303
- License:
- Abstract: Constructing compact and informative 3D scene representations is essential for effective embodied exploration and reasoning, especially in complex environments over long periods. Existing scene representations, such as object-centric 3D scene graphs, have significant limitations. They oversimplify spatial relationships by modeling scenes as individual objects, with inter-object relationships described by restrictive texts, making it difficult to answer queries that require nuanced spatial understanding. Furthermore, these representations lack natural mechanisms for active exploration and memory management, which hampers their application to lifelong autonomy. In this work, we propose SnapMem, a novel snapshot-based scene representation serving as 3D scene memory for embodied agents. SnapMem employs informative images, termed Memory Snapshots, to capture rich visual information of explored regions. It also integrates frontier-based exploration by introducing Frontier Snapshots-glimpses of unexplored areas-that enable agents to make informed exploration decisions by considering both known and potential new information. Meanwhile, to support lifelong memory in active exploration settings, we further present an incremental construction pipeline for SnapMem, as well as an effective memory retrieval technique for memory management. Experimental results on three benchmarks demonstrate that SnapMem significantly enhances agents' exploration and reasoning capabilities in 3D environments over extended periods, highlighting its potential for advancing applications in embodied AI.
- Abstract(参考訳): コンパクトで情報的な3次元シーン表現の構築は、特に長期にわたる複雑な環境において、効果的な具体的探索と推論に不可欠である。
オブジェクト中心の3Dシーングラフのような既存のシーン表現には、大きな制限がある。
彼らは、シーンを個々のオブジェクトとしてモデル化することで空間的関係を単純化し、制約のあるテキストによって記述されたオブジェクト間関係により、ニュアンスな空間的理解を必要とするクエリに答えることが困難になる。
さらに、これらの表現には、活動的な探索とメモリ管理の自然なメカニズムが欠如しており、生涯にわたる自律性への応用を妨げている。
本研究では,3次元シーンメモリとして機能する新しいスナップショットベースシーン表現であるSnapMemを提案する。
SnapMemは、調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合することで、エージェントが既知の情報と潜在的な新しい情報の両方を考慮して、情報的な探索決定を行うことを可能にする。
一方、活動的な探索環境での生涯記憶をサポートするため、SnapMem用のインクリメンタルな構築パイプラインや、メモリ管理のための効果的なメモリ検索技術も提示する。
3つのベンチマークによる実験結果によると、SnapMemは3D環境におけるエージェントの探索と推論能力を長期にわたって大幅に向上し、エンボディAIにおけるアプリケーションの進歩の可能性を強調している。
関連論文リスト
- 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [17.94511890272007]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences [70.0873383646651]
LSceneLLMはタスク関連領域を自動的に識別する適応型フレームワークである。
濃密なトークンセレクタは、LDMの注意マップを調べて、命令入力の視覚的嗜好を特定する。
適応自己保持モジュールを利用して、粗い粒度と選択されたきめ細かい視覚情報を融合する。
論文 参考訳(メタデータ) (2024-12-02T09:07:57Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。