論文の概要: AUGUSTUS: An LLM-Driven Multimodal Agent System with Contextualized User Memory
- arxiv url: http://arxiv.org/abs/2510.15261v1
- Date: Fri, 17 Oct 2025 02:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.4492
- Title: AUGUSTUS: An LLM-Driven Multimodal Agent System with Contextualized User Memory
- Title(参考訳): AUGUSTUS: 文脈記憶型LLM駆動型マルチモーダルエージェントシステム
- Authors: Jitesh Jain, Shubham Maheshwari, Ning Yu, Wen-mei Hwu, Humphrey Shi,
- Abstract要約: 本稿では,認知科学における人間の記憶の考え方に沿ったマルチモーダルエージェントシステムであるAUGUSTUSを紹介する。
ベクトルデータベースを使用する既存のシステムとは違って、セマンティックタグに情報を概念化し、タグをコンテキストに関連付け、グラフ構造化したマルチモーダル・コンテクストメモリに格納し、効率的な概念駆動型検索を行う。
従来のマルチモーダルRAG手法よりも,ImageNet分類では3.5倍高速であり,MSCベンチマークではMemGPTよりも優れていた。
- 参考スコア(独自算出の注目度): 44.51052183152175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Riding on the success of LLMs with retrieval-augmented generation (RAG), there has been a growing interest in augmenting agent systems with external memory databases. However, the existing systems focus on storing text information in their memory, ignoring the importance of multimodal signals. Motivated by the multimodal nature of human memory, we present AUGUSTUS, a multimodal agent system aligned with the ideas of human memory in cognitive science. Technically, our system consists of 4 stages connected in a loop: (i) encode: understanding the inputs; (ii) store in memory: saving important information; (iii) retrieve: searching for relevant context from memory; and (iv) act: perform the task. Unlike existing systems that use vector databases, we propose conceptualizing information into semantic tags and associating the tags with their context to store them in a graph-structured multimodal contextual memory for efficient concept-driven retrieval. Our system outperforms the traditional multimodal RAG approach while being 3.5 times faster for ImageNet classification and outperforming MemGPT on the MSC benchmark.
- Abstract(参考訳): 検索強化世代(RAG)によるLLMの成功を背景として,外部メモリデータベースを用いたエージェントシステムへの関心が高まっている。
しかし,既存のシステムでは,マルチモーダル信号の重要性を無視して,テキスト情報の記憶に重点を置いている。
人間の記憶のマルチモーダルな性質に触発され,認知科学における人間の記憶の考え方に沿ったマルチモーダルエージェントシステムであるAUGUSTUSを提案する。
技術的には、このシステムはループに接続された4つのステージから構成される。
(i)エンコード:入力の理解
二 記憶に残すもの 重要な情報を保存するもの
(iii)検索:記憶から関連コンテキストを検索し、
(iv) 動作: タスクを実行する。
ベクトルデータベースを利用する既存のシステムとは違って、セマンティックタグに情報を概念化し、タグをコンテキストに関連付け、グラフ構造化したマルチモーダル・コンテクストメモリに格納し、効率的な概念駆動型検索を行う。
従来のマルチモーダルRAG手法よりも,ImageNet分類では3.5倍高速であり,MSCベンチマークではMemGPTよりも優れていた。
関連論文リスト
- MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - A-MEM: Agentic Memory for LLM Agents [42.50876509391843]
大規模言語モデル(LLM)エージェントは、歴史的経験を活用するためにメモリシステムを必要とする。
現在のメモリシステムは基本的なストレージと検索を可能にするが、洗練されたメモリ構造は欠如している。
本稿では, LLMエージェントに対して, エージェント方式で動的に記憶を整理できる新しいエージェントメモリシステムを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:36:14Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。