論文の概要: 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model
- arxiv url: http://arxiv.org/abs/2505.22657v1
- Date: Wed, 28 May 2025 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.794722
- Title: 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model
- Title(参考訳): 3DLLM-Mem:3次元大規模言語モデルのための長期空間時間記憶
- Authors: Wenbo Hu, Yining Hong, Yanjun Wang, Leison Gao, Zibu Wei, Xingcheng Yao, Nanyun Peng, Yonatan Bitton, Idan Szpektor, Kai-Wei Chang,
- Abstract要約: 人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
- 参考スコア(独自算出の注目度): 83.70640091897947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at performing complex tasks by leveraging long-term memory across temporal and spatial experiences. In contrast, current Large Language Models (LLMs) struggle to effectively plan and act in dynamic, multi-room 3D environments. We posit that part of this limitation is due to the lack of proper 3D spatial-temporal memory modeling in LLMs. To address this, we first introduce 3DMem-Bench, a comprehensive benchmark comprising over 26,000 trajectories and 2,892 embodied tasks, question-answering and captioning, designed to evaluate an agent's ability to reason over long-term memory in 3D environments. Second, we propose 3DLLM-Mem, a novel dynamic memory management and fusion model for embodied spatial-temporal reasoning and actions in LLMs. Our model uses working memory tokens, which represents current observations, as queries to selectively attend to and fuse the most useful spatial and temporal features from episodic memory, which stores past observations and interactions. Our approach allows the agent to focus on task-relevant information while maintaining memory efficiency in complex, long-horizon environments. Experimental results demonstrate that 3DLLM-Mem achieves state-of-the-art performance across various tasks, outperforming the strongest baselines by 16.5% in success rate on 3DMem-Bench's most challenging in-the-wild embodied tasks.
- Abstract(参考訳): 人間は、時間的・空間的な経験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
対照的に、現在のLarge Language Models (LLMs) は動的でマルチルームの3D環境において効果的に計画し、機能するのに苦労している。
この制限の一部は、LLMにおける適切な3次元時空間メモリモデリングの欠如によるものであると仮定する。
まず,26,000件以上のトラジェクトリと2,892件の具体的タスク,質問応答,キャプションからなる総合的なベンチマークである3DMem-Benchを紹介する。
第二に、3DLLM-Memは空間的時間的推論と行動の具体化のための新しい動的メモリ管理と融合モデルである。
我々のモデルは、現在の観測を表現したワーキングメモリトークンを用いて、過去の観測や相互作用を記憶するエピソードメモリから、最も有用な空間的・時間的特徴を抽出し、融合させるクエリである。
本手法により,複雑な長期環境下でのメモリ効率を維持しつつ,タスク関連情報に集中することが可能となる。
実験結果から、3DLLM-Memは様々なタスクで最先端のパフォーマンスを達成し、3DMem-Benchの最も困難な組込みタスクにおいて16.5%の成功率で最強のベースラインを上回った。
関連論文リスト
- InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。
さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文 参考訳(メタデータ) (2024-11-23T09:57:43Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。