論文の概要: According to Me: Long-Term Personalized Referential Memory QA
- arxiv url: http://arxiv.org/abs/2603.01990v1
- Date: Mon, 02 Mar 2026 15:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.943945
- Title: According to Me: Long-Term Personalized Referential Memory QA
- Title(参考訳): 私によると: 長期パーソナライズされた参照メモリQA
- Authors: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Xinyu Hou, Margaret Li, Bill Byrne,
- Abstract要約: ATM-Benchはマルチモーダル、マルチソースパーソナライズされた参照メモリQAのための最初のベンチマークである。
ガイドメモリ(SGM)は、異なるソースから派生したメモリアイテムを構造的に表現する。
ATM-Bench-Hardセットでは性能が(20%の精度で)低いことが分かりました。
- 参考スコア(独自算出の注目度): 27.402232752643275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench
- Abstract(参考訳): パーソナライズされたAIアシスタントは、画像やビデオ、Eメールなど、複数のモダリティやソースに自然にまたがる、長期的なユーザーメモリを思い出し、理由付けする必要がある。
しかし、既存の長期メモリベンチマークは主に対話の歴史に焦点を当てており、生きた経験に基づく現実的なパーソナライズされた参照をキャプチャできなかった。
ATM-Benchはマルチモーダル、マルチソースパーソナライズされた参照メモリQAのための最初のベンチマークである。
ATM-Benchには、約4年間にわたるプライバシ保護されたパーソナルメモリデータと、人間による注釈付き質問-回答のペアと、暗黙のメモリエビデンスが含まれており、その中には、個人参照の解決、マルチソースからのマルチエビデンス推論、矛盾するエビデンスを扱うクエリが含まれる。
異なるソースから派生したメモリアイテムを構造的に表現するために,SGM(Schema-Guided Memory)を提案する。
実験では、標準的なRAGベースラインとともに5つの最先端メモリシステムを実装し、異なるメモリ取り込み、検索、解答生成技術を用いて変種を評価する。
ATM-Bench-Hard セットでは性能が低く (20 % の精度) ,SGM はディスクリプティブメモリよりも性能が向上している。
https://github.com/JingbiaoMei/ATM-Bench
関連論文リスト
- LifeBench: A Benchmark for Long-Horizon Multi-Source Memory [22.24847456134897]
本稿では,密結合型長距離イベントシミュレーションを特徴とするLifebenchを紹介する。
Lifebenchは、AIエージェントを単純なリコールを超えて、宣言的および宣言的でないメモリ推論の統合を必要とする。
性能評価の結果、最先端の最先端のメモリシステムは55.2%の精度にしか達していない。
論文 参考訳(メタデータ) (2026-03-04T06:42:17Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models [16.865998112859604]
EverMemBenchは、100万以上のトークンにまたがる多人数のマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
論文 参考訳(メタデータ) (2026-02-01T16:13:08Z) - OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents [55.27061195244624]
オーバーパーソナライゼーションを3つのタイプに分類する。
エージェントは不要な場合でも、ユーザメモリを取得およびオーバーアタッチする傾向があります。
我々の研究は、メモリ拡張対話システムにおいて、より制御可能で適切なパーソナライズに向けた最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2026-01-20T08:27:13Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Multiple Memory Systems for Enhancing the Long-term Memory of Agent [9.43633399280987]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。