論文の概要: Memory-Centric Embodied Question Answer
- arxiv url: http://arxiv.org/abs/2505.13948v1
- Date: Tue, 20 May 2025 05:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.763922
- Title: Memory-Centric Embodied Question Answer
- Title(参考訳): 記憶中心型質問応答
- Authors: Mingliang Zhai, Zhi Gao, Yuwei Wu, Yunde Jia,
- Abstract要約: EQA(Embodied Question Answering)は、エージェントが文脈に依存した質問に答えるために、環境を自律的に探索し理解することを要求する。
メモリ中心のEQAフレームワークであるMemoryEQAを提案する。
メモリモジュールが他のモジュールと完全に相互作用できないプランナー中心のEQAモデルとは異なり、MemoryEQAはメモリ情報を全てのモジュールにフレキシブルに供給する。
- 参考スコア(独自算出の注目度): 39.3863762723862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Question Answering (EQA) requires agents to autonomously explore and understand the environment to answer context-dependent questions. Existing frameworks typically center around the planner, which guides the stopping module, memory module, and answering module for reasoning. In this paper, we propose a memory-centric EQA framework named MemoryEQA. Unlike planner-centric EQA models where the memory module cannot fully interact with other modules, MemoryEQA flexible feeds memory information into all modules, thereby enhancing efficiency and accuracy in handling complex tasks, such as those involving multiple targets across different regions. Specifically, we establish a multi-modal hierarchical memory mechanism, which is divided into global memory that stores language-enhanced scene maps, and local memory that retains historical observations and state information. When performing EQA tasks, the multi-modal large language model is leveraged to convert memory information into the required input formats for injection into different modules. To evaluate EQA models' memory capabilities, we constructed the MT-HM3D dataset based on HM3D, comprising 1,587 question-answer pairs involving multiple targets across various regions, which requires agents to maintain memory of exploration-acquired target information. Experimental results on HM-EQA, MT-HM3D, and OpenEQA demonstrate the effectiveness of our framework, where a 19.8% performance gain on MT-HM3D compared to baseline model further underscores memory capability's pivotal role in resolving complex tasks.
- Abstract(参考訳): EQA(Embodied Question Answering)は、エージェントが文脈に依存した質問に答えるために、環境を自律的に探索し理解することを要求する。
既存のフレームワークは一般的に、停止モジュール、メモリモジュール、推論のための応答モジュールをガイドするプランナーを中心にしている。
本稿では,メモリ中心のEQAフレームワークであるMemoryEQAを提案する。
メモリモジュールが他のモジュールと完全に相互作用できないプランナー中心のEQAモデルとは異なり、MemoryEQAはメモリ情報を全てのモジュールにフレキシブルに供給し、異なる領域にまたがる複数のターゲットを含むような複雑なタスクを処理する際の効率と精度を向上させる。
具体的には、言語強調シーンマップを格納するグローバルメモリと、歴史的観測や状態情報を保持するローカルメモリに分割したマルチモーダル階層記憶機構を確立する。
EQAタスクを実行する際には、メモリ情報を異なるモジュールへのインジェクションに必要な入力形式に変換するために、マルチモーダルな大規模言語モデルを利用する。
EQAモデルのメモリ能力を評価するため,HM3Dに基づくMT-HM3Dデータセットを構築した。
HM-EQA, MT-HM3D, OpenEQAによる実験結果から, MT-HM3Dの19.8%の性能向上は, 複雑なタスクの解決においてメモリ能力が重要な役割を担っていることを示す。
関連論文リスト
- Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
この調査は、AIのメモリに関する研究、ベンチマークデータセット、ツールに関する構造化された動的視点を提供する。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z) - LM2: Large Memory Models [11.320069795732058]
本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。
BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
論文 参考訳(メタデータ) (2025-02-09T22:11:42Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - Memorizing Comprehensively to Learn Adaptively: Unsupervised
Cross-Domain Person Re-ID with Multi-level Memory [89.43986007948772]
対象領域における多レベル補完情報を発見するための新しいマルチレベルメモリネットワーク(MMN)を提案する。
従来の単純なメモリとは違って、ターゲット領域内の複数レベル補完情報を検出するための新しいマルチレベルメモリネットワーク(MMN)を提案する。
論文 参考訳(メタデータ) (2020-01-13T09:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。