論文の概要: MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.14906v1
- Date: Thu, 14 May 2026 14:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.883813
- Title: MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
- Title(参考訳): MemLens: 大規模ビジョンランゲージモデルにおけるマルチモーダル長期メモリのベンチマーク
- Authors: Xiyu Ren, Zhaowei Wang, Yiming Du, Zhongwei Xie, Chi Liu, Xinlin Yang, Haoyue Feng, Wenjun Pan, Tianshi Zheng, Baixuan Xu, Zhengnan Li, Yangqiu Song, Ginny Wong, Simon See,
- Abstract要約: メモリは、長いマルチモーダル相互作用を扱うために、大きな視覚言語モデルにとって不可欠である。
MEMLENSはマルチモーダルマルチセッション会話におけるメモリのベンチマークである。
我々は27個のLVLMと7個のメモリ増強剤を評価した。
- 参考スコア(独自算出の注目度): 50.25006399944962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.
- Abstract(参考訳): メモリは、LVLM(Long-context LVLM)とメモリ拡張エージェント(Memory-augmented agent)という2つの方法により、長いマルチモーダル相互作用を扱うために、大きな視覚言語モデル(LVLM)にとって必須である。
しかしながら、既存のベンチマークでは、真にマルチモーダルな証拠を必要とする質問について、この2つを体系的に比較することはない。
このギャップを埋めるために,マルチモーダルなマルチセッション会話におけるメモリの総合ベンチマークであるMEMLENSを導入し,5つのメモリ能力(情報抽出,多セッション推論,時間的推論,知識更新,回答拒否)を4つの標準コンテキスト長(32K-256Kトークン)で比較した。
証拠画像の除去は、証拠が画像を含む80.4%の質問に対して2つのフロンティアLVLMを2%未満の精度で落とす。
27個のLVLMと7個のメモリ拡張エージェントを評価したところ、LVLMは直接的な視覚的接地によって高い短文精度を実現するが、会話が大きくなるにつれて劣化するのに対し、メモリエージェントは長さが安定だが、記憶時圧縮では視覚的忠実度が低下することがわかった。
マルチセッション推論は、ほとんどのシステムを30%以下に制限し、どちらのアプローチもタスクを解決しない。
これらの結果は、長いコンテキストの注意と構造化マルチモーダル検索を組み合わせたハイブリッドアーキテクチャを動機付けている。
私たちのコードはhttps://github.com/xrenaf/MEMLENS.comで公開されています。
関連論文リスト
- MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios [33.8882826707344]
MemGroundは、リッチでゲーミフィケーションされたインタラクティブシナリオを基盤とした、厳格な長期メモリベンチマークである。
メモリ利用と行動軌跡の両方を包括的に定量化するために,多次元計量スイートを提案する。
論文 参考訳(メタデータ) (2026-03-23T02:57:39Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models [16.865998112859604]
EverMemBenchは、100万以上のトークンにまたがる多人数のマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
論文 参考訳(メタデータ) (2026-02-01T16:13:08Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - MemGuide: Intent-Driven Memory Selection for Goal-Oriented Multi-Session LLM Agents [46.21840714172862]
インテント駆動型メモリ選択のための2段階フレームワークであるMemGuideを紹介する。
MemGuideは、現在の対話コンテキストとメモリバンク内の格納されたインテント記述とを一致させる。
Missing-Aligned Guided Filteringでは、チェーンオブソートスロット推論器を使用して未充填スロットを列挙し、微調整のLLaMA-8Bフィルタを使用して検索したユニットを再ランクする。
論文 参考訳(メタデータ) (2025-05-26T17:10:43Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。