論文の概要: Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration
- arxiv url: http://arxiv.org/abs/2601.10744v1
- Date: Sun, 11 Jan 2026 16:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.226771
- Title: Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration
- Title(参考訳): 長期記憶による探索: ベンチマークとマルチモーダルLLMに基づくエンボダイド探索のための強化学習フレームワーク
- Authors: Sen Wang, Bangwei Liu, Zhenkun Gao, Lizhuang Ma, Xuhong Wang, Yuan Xie, Xin Tan,
- Abstract要約: 長期記憶身体探索は、エージェントの探索的認知と意思決定行動を統合することを目的としている。
エージェントのメモリリコールとプロアクティブな探索能力を高めるため,我々はMemoryExplorerを提案する。
- 参考スコア(独自算出の注目度): 52.35887679314727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An ideal embodied agent should possess lifelong learning capabilities to handle long-horizon and complex tasks, enabling continuous operation in general environments. This not only requires the agent to accurately accomplish given tasks but also to leverage long-term episodic memory to optimize decision-making. However, existing mainstream one-shot embodied tasks primarily focus on task completion results, neglecting the crucial process of exploration and memory utilization. To address this, we propose Long-term Memory Embodied Exploration (LMEE), which aims to unify the agent's exploratory cognition and decision-making behaviors to promote lifelong learning.We further construct a corresponding dataset and benchmark, LMEE-Bench, incorporating multi-goal navigation and memory-based question answering to comprehensively evaluate both the process and outcome of embodied exploration. To enhance the agent's memory recall and proactive exploration capabilities, we propose MemoryExplorer, a novel method that fine-tunes a multimodal large language model through reinforcement learning to encourage active memory querying. By incorporating a multi-task reward function that includes action prediction, frontier selection, and question answering, our model achieves proactive exploration. Extensive experiments against state-of-the-art embodied exploration models demonstrate that our approach achieves significant advantages in long-horizon embodied tasks.
- Abstract(参考訳): 理想的なエンボディードエージェントは、長期にわたる学習能力を持ち、長期にわたる複雑なタスクを処理し、一般的な環境で連続的な操作を可能にするべきである。
これは、エージェントが与えられたタスクを正確に達成するだけでなく、意思決定を最適化するために長期的なエピソードメモリを活用する必要がある。
しかし、既存のメインストリームのワンショット実施タスクは、主に、探索とメモリ利用の重要なプロセスを無視したタスク完了結果に焦点を当てている。
そこで本研究では,生涯学習を促進するために,エージェントの探索的認知と意思決定行動を統合することを目的とした,長期記憶身体探索(LMEE)を提案する。さらに,マルチゴールナビゲーションとメモリベースの質問応答を取り入れた,対応するデータセットとベンチマークであるLMEE-Benchを構築し,具体的探索のプロセスと結果の両方を包括的に評価する。
エージェントのメモリリコールとプロアクティブな探索能力を高めるために,強化学習によりマルチモーダルな大言語モデルを微調整し,アクティブなメモリクエリを促進する新しい方法であるMemoryExplorerを提案する。
行動予測,フロンティア選択,質問応答を含むマルチタスク報酬関数を組み込むことで,本モデルが積極的な探索を実現する。
最先端のエンボディード探索モデルに対する大規模な実験により、我々の手法は長期のエンボディードタスクにおいて大きな利点を享受できることを示した。
関連論文リスト
- Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - Vision to Geometry: 3D Spatial Memory for Sequential Embodied MLLM Reasoning and Exploration [12.928422281441968]
身体的なタスクは通常、エージェントが未知の環境を積極的に探索し、特定の目標を達成するためにシーンについて推論する必要がある。
実生活に配備されると、エージェントはしばしばシーケンシャルなタスクに直面し、そこでは各新しいサブタスクが前のタスクの完了に続く。
2つの古典的具体的タスクを含むSequential Embodied Exploration and Reasoning BenchmarkであるSEER-Benchを紹介する。
本研究では,3次元空間記憶推論手法である3DSPMRを提案する。
論文 参考訳(メタデータ) (2025-12-02T06:35:30Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model [39.169389255970806]
HiAgentは、サブゴールをメモリチャンクとして活用して、LLM(Large Language Model)ベースのエージェントの動作メモリを階層的に管理するフレームワークである。
その結果,HiAgentは成功率を2倍に向上し,平均ステップ数を3.8倍に削減した。
論文 参考訳(メタデータ) (2024-08-18T17:59:49Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。