Fugu-MT 論文翻訳(概要): SMMBench: A Benchmark for Source-Distributed Multimodal Agent Memory

論文の概要: SMMBench: A Benchmark for Source-Distributed Multimodal Agent Memory

arxiv url: http://arxiv.org/abs/2605.15710v1
Date: Fri, 15 May 2026 08:00:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.213632
Title: SMMBench: A Benchmark for Source-Distributed Multimodal Agent Memory
Title（参考訳）: SMMBench: ソース分散マルチモーダルエージェントメモリのベンチマーク
Authors: Huacan Chai, Yukai Wang, Yingxuan Yang, Dan Peng, Yuanyi Song, Zhihui Fu, Weiwen Liu, Jianghao Lin, Jun Wang, Weinan Zhang,
Abstract要約: 既存のマルチモーダルメモリ推論のベンチマークは、事前組立されたコンテキスト内のシステムを大幅に評価する。我々は、ソース分散メモリ構成が、マルチモーダルエージェントメモリにおいて重要かつ過小評価されていないボトルネックであると主張している。エージェントが複数のソースにまたがるマルチモーダルエビデンスを検索・調整・構成できるかどうかを計測するソース分散マルチモーダルメモリベンチマークを導入する。
参考スコア（独自算出の注目度）: 34.330518284737806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing benchmarks for multimodal memory reasoning largely evaluate systems within pre-assembled contexts, but under-evaluate whether agents can use evidence distributed across independently originated sources. We argue that source-distributed memory composition is an important and under-examined bottleneck in multimodal agent memory, especially when relevant evidence is fragmented across heterogeneous artifacts such as conversations, profiles, screenshots, tables, images, and documents. To address this gap, we introduce Source-distributed Multimodal Memory Benchmark(SMMBench), which measures whether agents can retrieve, align, and compose multimodal evidence scattered across multiple sources rather than reason within a single curated context. SMMBench evaluates four core capabilities: (1) cross-source multimodal reasoning; (2) conflict resolution; (3) preference reasoning; (4) memory-grounded action prediction. The benchmark contains 1877 samples grounded in 264 sources. Experiments on representative memory-style and retrieval-based baselines show that current systems still struggle on these capabilities, positioning source-distributed multimodal memory as an important and still under-evaluated challenge for multimodal agents. Our data are available at https://huggingface.co/datasets/HuacanChai/SMMBench.
Abstract（参考訳）: 既存のマルチモーダルメモリ推論のベンチマークは、事前に組立てられたコンテキスト内のシステムを評価するが、エージェントが独立に生成されたソースに分散したエビデンスを利用できるかどうかを過小評価する。特に、会話、プロファイル、スクリーンショット、テーブル、画像、文書などの異種人工物に関連性のある証拠が断片化されている場合、ソース分散メモリ構成は、マルチモーダル・エージェント・メモリにおいて重要かつ過小評価されていないボトルネックである。このギャップに対処するために、ソース分散マルチモーダルメモリベンチマーク(SMMBench)を導入し、エージェントが単一のキュレートされたコンテキストにおける理由ではなく、複数のソースにまたがるマルチモーダルエビデンスを検索、調整、構成できるかどうかを測定する。 SMMBenchは,(1)クロスソースマルチモーダル推論,(2)コンフリクト解決,(3)選好推論,(4)メモリグランドアクション予測の4つのコア機能を評価する。ベンチマークには、264のソースに接地された1877のサンプルが含まれている。代表的なメモリスタイルと検索ベースラインの実験では、現在のシステムはこれらの機能に依然として苦戦しており、ソース分散マルチモーダルメモリは、マルチモーダルエージェントにとって重要かつ未評価の課題として位置づけられている。私たちのデータはhttps://huggingface.co/datasets/HuacanChai/SMMBench.orgで公開されています。

関連論文リスト

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models [50.25006399944962]
メモリは、長いマルチモーダル相互作用を扱うために、大きな視覚言語モデルにとって不可欠である。 MEMLENSはマルチモーダルマルチセッション会話におけるメモリのベンチマークである。我々は27個のLVLMと7個のメモリ増強剤を評価した。
論文参考訳（メタデータ） (2026-05-14T14:41:17Z)
GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations [25.703133924514884]
大規模言語モデル(LLM)エージェントは、ますますパーソナルアシスタントや職場の協力者として機能している。既存のメモリシステムとベンチマークは、Dyadicのシングルユーザ設定を中心に構築されている。グループメモリの3つの特性を公開するベンチマークであるGroupMemBenchを紹介する。
論文参考訳（メタデータ） (2026-05-14T07:38:29Z)
MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文参考訳（メタデータ） (2026-03-05T21:43:02Z)
According to Me: Long-Term Personalized Referential Memory QA [27.402232752643275]
ATM-Benchはマルチモーダル、マルチソースパーソナライズされた参照メモリQAのための最初のベンチマークである。ガイドメモリ(SGM)は、異なるソースから派生したメモリアイテムを構造的に表現する。 ATM-Bench-Hardセットでは性能が(20%の精度で)低いことが分かりました。
論文参考訳（メタデータ） (2026-03-02T15:42:29Z)
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文参考訳（メタデータ） (2025-10-04T04:30:13Z)
SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文参考訳（メタデータ） (2025-09-11T14:37:37Z)
Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。 MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文参考訳（メタデータ） (2025-05-22T09:52:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。