論文の概要: 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning
- arxiv url: http://arxiv.org/abs/2411.17735v2
- Date: Tue, 10 Dec 2024 12:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:33:16.272248
- Title: 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning
- Title(参考訳): 3D-Mem:3D Scene Memory for Embodied Exploration and Reasoning
- Authors: Yuncong Yang, Han Yang, Jiachen Zhou, Peihao Chen, Hongxin Zhang, Yilun Du, Chuang Gan,
- Abstract要約: エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。
さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
- 参考スコア(独自算出の注目度): 65.40458559619303
- License:
- Abstract: Constructing compact and informative 3D scene representations is essential for effective embodied exploration and reasoning, especially in complex environments over extended periods. Existing representations, such as object-centric 3D scene graphs, oversimplify spatial relationships by modeling scenes as isolated objects with restrictive textual relationships, making it difficult to address queries requiring nuanced spatial understanding. Moreover, these representations lack natural mechanisms for active exploration and memory management, hindering their application to lifelong autonomy. In this work, we propose 3D-Mem, a novel 3D scene memory framework for embodied agents. 3D-Mem employs informative multi-view images, termed Memory Snapshots, to represent the scene and capture rich visual information of explored regions. It further integrates frontier-based exploration by introducing Frontier Snapshots-glimpses of unexplored areas-enabling agents to make informed decisions by considering both known and potential new information. To support lifelong memory in active exploration settings, we present an incremental construction pipeline for 3D-Mem, as well as a memory retrieval technique for memory management. Experimental results on three benchmarks demonstrate that 3D-Mem significantly enhances agents' exploration and reasoning capabilities in 3D environments, highlighting its potential for advancing applications in embodied AI.
- Abstract(参考訳): コンパクトで情報的な3次元シーン表現の構築は、特に長期にわたる複雑な環境において、効果的な具体的探索と推論に不可欠である。
オブジェクト中心の3Dシーングラフのような既存の表現は、シーンを制約的なテキスト関係を持つ孤立したオブジェクトとしてモデル化することで空間的関係を単純化し、ニュアンスな空間的理解を必要とするクエリに対処することが困難である。
さらに、これらの表現は、アクティブな探索とメモリ管理の自然なメカニズムを欠き、生涯にわたる自律性への応用を妨げる。
本研究では,新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、そのシーンを表現し、探索された領域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的な多視点画像を使用している。
さらに、Frontier Snapshots-glimpsの未探索エリア起動エージェントを導入して、既知の情報と潜在的な新しい情報の両方を考慮することで、情報的な決定を下すことによって、フロンティアベースの探索をさらに統合する。
本研究では,3D-Memのためのインクリメンタルな構成パイプラインと,メモリ管理のためのメモリ検索技術を提案する。
3つのベンチマークによる実験結果から、3D-Memはエージェントの探索と推論能力を著しく向上し、3D環境におけるAIの進歩の可能性を強調している。
関連論文リスト
- 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [17.94511890272007]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences [70.0873383646651]
LSceneLLMはタスク関連領域を自動的に識別する適応型フレームワークである。
濃密なトークンセレクタは、LDMの注意マップを調べて、命令入力の視覚的嗜好を特定する。
適応自己保持モジュールを利用して、粗い粒度と選択されたきめ細かい視覚情報を融合する。
論文 参考訳(メタデータ) (2024-12-02T09:07:57Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。