論文の概要: Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents
- arxiv url: http://arxiv.org/abs/2601.03515v1
- Date: Wed, 07 Jan 2026 02:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.115751
- Title: Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents
- Title(参考訳): Mem-Gallery:MLLMエージェントのためのマルチモーダル長期会話メモリのベンチマーク
- Authors: Yuanchen Bei, Tianxin Wei, Xuying Ning, Yanjun Zhao, Zhining Liu, Xiao Lin, Yada Zhu, Hendrik Hamann, Jingrui He, Hanghang Tong,
- Abstract要約: 長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
- 参考スコア(独自算出の注目度): 76.76004970226485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term memory is a critical capability for multimodal large language model (MLLM) agents, particularly in conversational settings where information accumulates and evolves over time. However, existing benchmarks either evaluate multi-session memory in text-only conversations or assess multimodal understanding within localized contexts, failing to evaluate how multimodal memory is preserved, organized, and evolved across long-term conversational trajectories. Thus, we introduce Mem-Gallery, a new benchmark for evaluating multimodal long-term conversational memory in MLLM agents. Mem-Gallery features high-quality multi-session conversations grounded in both visual and textual information, with long interaction horizons and rich multimodal dependencies. Building on this dataset, we propose a systematic evaluation framework that assesses key memory capabilities along three functional dimensions: memory extraction and test-time adaptation, memory reasoning, and memory knowledge management. Extensive benchmarking across thirteen memory systems reveals several key findings, highlighting the necessity of explicit multimodal information retention and memory organization, the persistent limitations in memory reasoning and knowledge management, as well as the efficiency bottleneck of current models.
- Abstract(参考訳): 長期記憶はマルチモーダル・大規模言語モデル(MLLM)エージェントにとって重要な機能であり、特に情報が蓄積され時間とともに進化する会話環境において重要である。
しかし、既存のベンチマークでは、テキストのみの会話におけるマルチセッションメモリの評価や、局所的な文脈におけるマルチモーダル理解の評価、マルチモーダルメモリの保存、組織化、長期にわたる会話の軌跡の進化の評価に失敗している。
そこで我々は,MLLMエージェントにおけるマルチモーダル長期会話メモリ評価のための新しいベンチマークであるMem-Galleryを紹介する。
Mem-Galleryは、視覚情報とテキスト情報の両方に根ざした高品質なマルチセッション会話を特徴としている。
本稿では, メモリ抽出とテスト時間適応, メモリ推論, メモリ知識管理の3つの機能的側面に沿って, キーメモリ能力を評価するシステム評価フレームワークを提案する。
13のメモリシステムにわたる大規模なベンチマークでは、明示的なマルチモーダル情報保持とメモリ組織の必要性、メモリ推論と知識管理の永続的制限、現在のモデルの効率ボトルネックなど、いくつかの重要な発見が明らかになった。
関連論文リスト
- Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - AUGUSTUS: An LLM-Driven Multimodal Agent System with Contextualized User Memory [44.51052183152175]
本稿では,認知科学における人間の記憶の考え方に沿ったマルチモーダルエージェントシステムであるAUGUSTUSを紹介する。
ベクトルデータベースを使用する既存のシステムとは違って、セマンティックタグに情報を概念化し、タグをコンテキストに関連付け、グラフ構造化したマルチモーダル・コンテクストメモリに格納し、効率的な概念駆動型検索を行う。
従来のマルチモーダルRAG手法よりも,ImageNet分類では3.5倍高速であり,MSCベンチマークではMemGPTよりも優れていた。
論文 参考訳(メタデータ) (2025-10-17T02:58:22Z) - Multiple Memory Systems for Enhancing the Long-term Memory of Agent [9.43633399280987]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。