論文の概要: SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning
- arxiv url: http://arxiv.org/abs/2411.17735v1
- Date: Sat, 23 Nov 2024 09:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:41.266521
- Title: SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning
- Title(参考訳): SnapMem: ボディード・エクスプロレーションと推論のためのスナップショットベースの3Dシーンメモリ
- Authors: Yuncong Yang, Han Yang, Jiachen Zhou, Peihao Chen, Hongxin Zhang, Yilun Du, Chuang Gan,
- Abstract要約: SnapMemは、新しいスナップショットベースのシーン表現で、エンボディエージェントの3Dシーンメモリとして機能する。
調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合する。
- 参考スコア(独自算出の注目度): 65.40458559619303
- License:
- Abstract: Constructing compact and informative 3D scene representations is essential for effective embodied exploration and reasoning, especially in complex environments over long periods. Existing scene representations, such as object-centric 3D scene graphs, have significant limitations. They oversimplify spatial relationships by modeling scenes as individual objects, with inter-object relationships described by restrictive texts, making it difficult to answer queries that require nuanced spatial understanding. Furthermore, these representations lack natural mechanisms for active exploration and memory management, which hampers their application to lifelong autonomy. In this work, we propose SnapMem, a novel snapshot-based scene representation serving as 3D scene memory for embodied agents. SnapMem employs informative images, termed Memory Snapshots, to capture rich visual information of explored regions. It also integrates frontier-based exploration by introducing Frontier Snapshots-glimpses of unexplored areas-that enable agents to make informed exploration decisions by considering both known and potential new information. Meanwhile, to support lifelong memory in active exploration settings, we further present an incremental construction pipeline for SnapMem, as well as an effective memory retrieval technique for memory management. Experimental results on three benchmarks demonstrate that SnapMem significantly enhances agents' exploration and reasoning capabilities in 3D environments over extended periods, highlighting its potential for advancing applications in embodied AI.
- Abstract(参考訳): コンパクトで情報的な3次元シーン表現の構築は、特に長期にわたる複雑な環境において、効果的な具体的探索と推論に不可欠である。
オブジェクト中心の3Dシーングラフのような既存のシーン表現には、大きな制限がある。
彼らは、シーンを個々のオブジェクトとしてモデル化することで空間的関係を単純化し、制約のあるテキストによって記述されたオブジェクト間関係により、ニュアンスな空間的理解を必要とするクエリに答えることが困難になる。
さらに、これらの表現には、活動的な探索とメモリ管理の自然なメカニズムが欠如しており、生涯にわたる自律性への応用を妨げている。
本研究では,3次元シーンメモリとして機能する新しいスナップショットベースシーン表現であるSnapMemを提案する。
SnapMemは、調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合することで、エージェントが既知の情報と潜在的な新しい情報の両方を考慮して、情報的な探索決定を行うことを可能にする。
一方、活動的な探索環境での生涯記憶をサポートするため、SnapMem用のインクリメンタルな構築パイプラインや、メモリ管理のための効果的なメモリ検索技術も提示する。
3つのベンチマークによる実験結果によると、SnapMemは3D環境におけるエージェントの探索と推論能力を長期にわたって大幅に向上し、エンボディAIにおけるアプリケーションの進歩の可能性を強調している。
関連論文リスト
- HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。
我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-12T07:57:58Z) - Hierarchical Representations and Explicit Memory: Learning Effective
Navigation Policies on 3D Scene Graphs using Graph Neural Networks [16.19099481411921]
本稿では,ハイレベルな階層表現を活用してナビゲーションポリシーを学習する強化学習フレームワークを提案する。
本手法は,シーングラフの各ノードに対して,ロボット軌道の記憶を明示的に保持しつつ,占有度と意味的内容をキャプチャする機能を利用する。
論文 参考訳(メタデータ) (2021-08-02T21:21:27Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。