Fugu-MT 論文翻訳(概要): 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

論文の概要: 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

arxiv url: http://arxiv.org/abs/2505.22657v1
Date: Wed, 28 May 2025 17:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.794722
Title: 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model
Title（参考訳）: 3DLLM-Mem:3次元大規模言語モデルのための長期空間時間記憶
Authors: Wenbo Hu, Yining Hong, Yanjun Wang, Leison Gao, Zibu Wei, Xingcheng Yao, Nanyun Peng, Yonatan Bitton, Idan Szpektor, Kai-Wei Chang,
Abstract要約: 人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
参考スコア（独自算出の注目度）: 83.70640091897947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans excel at performing complex tasks by leveraging long-term memory across temporal and spatial experiences. In contrast, current Large Language Models (LLMs) struggle to effectively plan and act in dynamic, multi-room 3D environments. We posit that part of this limitation is due to the lack of proper 3D spatial-temporal memory modeling in LLMs. To address this, we first introduce 3DMem-Bench, a comprehensive benchmark comprising over 26,000 trajectories and 2,892 embodied tasks, question-answering and captioning, designed to evaluate an agent's ability to reason over long-term memory in 3D environments. Second, we propose 3DLLM-Mem, a novel dynamic memory management and fusion model for embodied spatial-temporal reasoning and actions in LLMs. Our model uses working memory tokens, which represents current observations, as queries to selectively attend to and fuse the most useful spatial and temporal features from episodic memory, which stores past observations and interactions. Our approach allows the agent to focus on task-relevant information while maintaining memory efficiency in complex, long-horizon environments. Experimental results demonstrate that 3DLLM-Mem achieves state-of-the-art performance across various tasks, outperforming the strongest baselines by 16.5% in success rate on 3DMem-Bench's most challenging in-the-wild embodied tasks.
Abstract（参考訳）: 人間は、時間的・空間的な経験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。対照的に、現在のLarge Language Models (LLMs) は動的でマルチルームの3D環境において効果的に計画し、機能するのに苦労している。この制限の一部は、LLMにおける適切な3次元時空間メモリモデリングの欠如によるものであると仮定する。まず,26,000件以上のトラジェクトリと2,892件の具体的タスク,質問応答,キャプションからなる総合的なベンチマークである3DMem-Benchを紹介する。第二に、3DLLM-Memは空間的時間的推論と行動の具体化のための新しい動的メモリ管理と融合モデルである。我々のモデルは、現在の観測を表現したワーキングメモリトークンを用いて、過去の観測や相互作用を記憶するエピソードメモリから、最も有用な空間的・時間的特徴を抽出し、融合させるクエリである。本手法により,複雑な長期環境下でのメモリ効率を維持しつつ,タスク関連情報に集中することが可能となる。実験結果から、3DLLM-Memは様々なタスクで最先端のパフォーマンスを達成し、3DMem-Benchの最も困難な組込みタスクにおいて16.5%の成功率で最強のベースラインを上回った。

関連論文リスト

Occupancy Learning with Spatiotemporal Memory [39.41175479685905]
本稿では,時間的整合性のある3次元占有特徴を効果的に学習するシーンレベルの占有表現学習フレームワークを提案する。提案手法は,多フレーム入力間の時間的依存性を利用して,3次元占有予測タスクの時間的表現を著しく向上させる。
論文参考訳（メタデータ） (2025-08-06T17:59:52Z)
FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文参考訳（メタデータ） (2025-06-18T17:06:28Z)
Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文参考訳（メタデータ） (2025-03-23T16:40:20Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。 3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文参考訳（メタデータ） (2024-11-23T09:57:43Z)
KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.461941212597877]
エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。メモリ拡張型エンボディAIエージェントは,複合タスクおよび複合タスクにおいて,成功率を1.3倍,2.3倍に向上させる。
論文参考訳（メタデータ） (2024-09-23T11:02:46Z)
End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。 ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。 ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文参考訳（メタデータ） (2021-02-15T18:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。