論文の概要: Enter the Mind Palace: Reasoning and Planning for Long-term Active Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2507.12846v1
- Date: Thu, 17 Jul 2025 07:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.382131
- Title: Enter the Mind Palace: Reasoning and Planning for Long-term Active Embodied Question Answering
- Title(参考訳): 心室に入る:長期能動型質問応答の推論と計画
- Authors: Muhammad Fadhil Ginting, Dong-Ki Kim, Xiangyun Meng, Andrzej Reinke, Bandi Jai Krishna, Navid Kayhani, Oriana Peltzer, David D. Fan, Amirreza Shaban, Sung-Kyun Kim, Mykel J. Kochenderfer, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei,
- Abstract要約: LA-EQA(Long-term Active Question Answering)は、ロボットが過去の経験を思い出し、その環境を積極的に探究して、複雑な時間的な質問に答えなければならない、という新しいタスクである。
大規模なモデルに基づく標準的なEQAアプローチは、コンテキストウインドウの制限、永続メモリの欠如、メモリリコールとアクティブな探索を組み合わせられないため、この設定で苦労している。
本稿では,認知科学のマインド・パレス法にヒントを得た,ロボットのための構造化メモリシステムを提案する。
- 参考スコア(独自算出の注目度): 37.46769817093238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As robots become increasingly capable of operating over extended periods -- spanning days, weeks, and even months -- they are expected to accumulate knowledge of their environments and leverage this experience to assist humans more effectively. This paper studies the problem of Long-term Active Embodied Question Answering (LA-EQA), a new task in which a robot must both recall past experiences and actively explore its environment to answer complex, temporally-grounded questions. Unlike traditional EQA settings, which typically focus either on understanding the present environment alone or on recalling a single past observation, LA-EQA challenges an agent to reason over past, present, and possible future states, deciding when to explore, when to consult its memory, and when to stop gathering observations and provide a final answer. Standard EQA approaches based on large models struggle in this setting due to limited context windows, absence of persistent memory, and an inability to combine memory recall with active exploration. To address this, we propose a structured memory system for robots, inspired by the mind palace method from cognitive science. Our method encodes episodic experiences as scene-graph-based world instances, forming a reasoning and planning algorithm that enables targeted memory retrieval and guided navigation. To balance the exploration-recall trade-off, we introduce value-of-information-based stopping criteria that determines when the agent has gathered sufficient information. We evaluate our method on real-world experiments and introduce a new benchmark that spans popular simulation environments and actual industrial sites. Our approach significantly outperforms state-of-the-art baselines, yielding substantial gains in both answer accuracy and exploration efficiency.
- Abstract(参考訳): ロボットが長い期間(数日、数週間、あるいは数ヶ月)で操作できるようになると、環境に関する知識を蓄積し、この経験を活用して人間をより効果的に支援することが期待されている。
本稿では,ロボットが過去の経験を想起させ,その環境を積極的に探求し,複雑で時空間的な質問に答えなければならない,長期能動型質問回答(LA-EQA)の課題について検討する。
LA-EQAは、通常、現在の環境のみを理解することや、過去の観測をリコールすることに集中する伝統的なEQA設定とは異なり、エージェントに対して、過去、現在、そして将来の可能性について推論し、いつ探索するか、いつその記憶を参照するか、いつ観測を中止し最終回答を提供するのかを問う。
大規模なモデルに基づく標準的なEQAアプローチは、コンテキストウインドウの制限、永続メモリの欠如、メモリリコールとアクティブな探索を組み合わせられないため、この設定で苦労している。
そこで我々は,認知科学からマインド・パレス法にヒントを得た,ロボットのための構造化メモリシステムを提案する。
提案手法は,シーングラフベースのワールドインスタンスとしてエピソード体験を符号化し,ターゲットメモリの検索と誘導ナビゲーションを可能にする推論と計画アルゴリズムを作成する。
調査・リコールトレードオフのバランスをとるために,エージェントが十分な情報を収集したタイミングを決定する情報量に基づく停止基準を導入する。
本手法を実世界の実験で評価し,一般的なシミュレーション環境と実際の産業現場にまたがる新しいベンチマークを導入する。
提案手法は最先端のベースラインを著しく上回り,解答精度と探索効率の両面で大きく向上した。
関連論文リスト
- FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - ProDapt: Proprioceptive Adaptation using Long-term Memory Diffusion [5.420695947366242]
宇宙、軍事、水中の用途では、ロボットは外部受容センサーの故障に対して非常に堅牢でなければならない。
本稿では,ロボットと環境との接触の長期記憶を組み込んだProDaptを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:27:38Z) - Leveraging Knowledge Graph-Based Human-Like Memory Systems to Solve Partially Observable Markov Decision Processes [9.953497719634726]
我々は、部分的に観察可能なマルコフ決定プロセス(POMDP)を開発し、迷路をナビゲートしながら、エージェントが質問に答えなければならない。
環境は完全に知識グラフ(KG)に基づいており、隠れた状態は動的KGである。
私たちはエージェントを異なるメモリシステムで訓練し比較し、人間の脳が自身のメモリを管理する際にどのように機能するかを明らかにします。
論文 参考訳(メタデータ) (2024-08-11T21:04:14Z) - Visual Episodic Memory-based Exploration [0.6374763930914523]
人間では、本質的なモチベーションはオープンエンド認知発達の重要なメカニズムであり、ロボットでは探索に有用である。
本稿では,ロボット探索問題への動機づけの源として,視覚的エピソードメモリの利用について検討する。
論文 参考訳(メタデータ) (2024-05-18T13:58:47Z) - Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - Memory-Augmented Theory of Mind Network [59.9781556714202]
社会的推論は、心の理論(ToM)の能力を必要とする。
ToMに対する最近の機械学習アプローチは、観察者が過去を読み、他のエージェントの振る舞いを提示するように訓練できることを実証している。
我々は,新たなニューラルメモリ機構を組み込んで符号化し,階層的な注意を払って他者に関する情報を選択的に検索することで,課題に対処する。
この結果、ToMMYは心的プロセスについての仮定をほとんど行わずに理性を学ぶマインドモデルである。
論文 参考訳(メタデータ) (2023-01-17T14:48:58Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。
既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。
次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文 参考訳(メタデータ) (2020-01-07T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。