論文の概要: HaluMem: Evaluating Hallucinations in Memory Systems of Agents
- arxiv url: http://arxiv.org/abs/2511.03506v1
- Date: Wed, 05 Nov 2025 14:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.448637
- Title: HaluMem: Evaluating Hallucinations in Memory Systems of Agents
- Title(参考訳): HaluMem: エージェントの記憶システムにおける幻覚の評価
- Authors: Ding Chen, Simin Niu, Kehang Li, Peng Liu, Xiangping Zheng, Bo Tang, Xinchi Li, Feiyu Xiong, Zhiyu Li,
- Abstract要約: 本稿では,メモリシステムに適した最初の操作レベルの幻覚評価ベンチマークであるHalucination in Memory Benchmark(HaluMem)を紹介する。
HaluMemは3つの評価タスク(メモリ抽出、メモリ更新、メモリ質問応答)を定義し、幻覚の振る舞いを包括的に明らかにする。
評価を支援するため,ユーザ中心のマルチターンヒューマンAIインタラクションデータセットを構築した。
- 参考スコア(独自算出の注目度): 41.30187073598519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory systems are key components that enable AI systems such as LLMs and AI agents to achieve long-term learning and sustained interaction. However, during memory storage and retrieval, these systems frequently exhibit memory hallucinations, including fabrication, errors, conflicts, and omissions. Existing evaluations of memory hallucinations are primarily end-to-end question answering, which makes it difficult to localize the operational stage within the memory system where hallucinations arise. To address this, we introduce the Hallucination in Memory Benchmark (HaluMem), the first operation level hallucination evaluation benchmark tailored to memory systems. HaluMem defines three evaluation tasks (memory extraction, memory updating, and memory question answering) to comprehensively reveal hallucination behaviors across different operational stages of interaction. To support evaluation, we construct user-centric, multi-turn human-AI interaction datasets, HaluMem-Medium and HaluMem-Long. Both include about 15k memory points and 3.5k multi-type questions. The average dialogue length per user reaches 1.5k and 2.6k turns, with context lengths exceeding 1M tokens, enabling evaluation of hallucinations across different context scales and task complexities. Empirical studies based on HaluMem show that existing memory systems tend to generate and accumulate hallucinations during the extraction and updating stages, which subsequently propagate errors to the question answering stage. Future research should focus on developing interpretable and constrained memory operation mechanisms that systematically suppress hallucinations and improve memory reliability.
- Abstract(参考訳): メモリシステムは、LLMやAIエージェントなどのAIシステムが長期的な学習と持続的なインタラクションを実現するための重要なコンポーネントである。
しかし、メモリストレージと検索の間、これらのシステムはしばしば、生成、エラー、競合、省略を含むメモリ幻覚を示す。
既存のメモリ幻覚の評価は、主にエンドツーエンドの質問応答であり、幻覚が発生するメモリシステム内の運用段階のローカライズが困難である。
そこで本研究では,メモリシステムに適した最初の操作レベル幻覚評価ベンチマークであるHalucination in Memory Benchmark(HaluMem)を紹介する。
HaluMemは3つの評価タスク(メモリ抽出、メモリ更新、メモリ質問応答)を定義し、さまざまな操作段階における幻覚の振る舞いを包括的に明らかにする。
評価を支援するため,ユーザ中心のマルチターンヒューマン-AIインタラクションデータセットであるHaluMem-MediumとHaluMem-Longを構築した。
どちらも約15kのメモリポイントと3.5kのマルチタイプの質問を含んでいる。
ユーザ毎の平均対話長は1.5kと2.6kに到達し、コンテキスト長は100万トークンを超え、異なるコンテキストスケールとタスクの複雑さで幻覚を評価することができる。
HaluMemに基づく実証研究により、既存の記憶システムは抽出と更新の段階で幻覚を発生・蓄積する傾向にあり、その結果、質問応答の段階でエラーが伝播することを示した。
今後の研究は、幻覚を体系的に抑制し、メモリ信頼性を向上させる、解釈可能な、制約のあるメモリ操作機構の開発に注力する。
関連論文リスト
- Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs [34.361000444808454]
メモリは情報をエンコードし、保存し、検索するプロセスである。
大規模言語モデル(LLM)の時代において、メモリとは、AIシステムが過去のインタラクションからの情報を保持し、リコールし、使用し、将来の応答とインタラクションを改善する能力である。
論文 参考訳(メタデータ) (2025-04-22T15:05:04Z) - Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models [26.32657568461926]
マルチモーダルな大言語モデル(MLLM)は幻覚を起こす傾向がある。
MemVRは共通の認知にインスパイアされた新しいデコードパラダイムである。
MemVRは様々なMLLMの幻覚を著しく緩和する。
論文 参考訳(メタデータ) (2024-10-04T16:30:54Z) - MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation [15.64077949677469]
メモリ拡張対話システム(MADS)の有効性を評価するための新しいメモリ拡張対話ベンチマーク(MADail-Bench)を提案する。
このベンチマークは2つのタスクを別々に評価する: メモリ検索とメモリ認識は、パッシブとプロアクティブの両方のメモリリコールデータを組み込んだものである。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示している。
論文 参考訳(メタデータ) (2024-09-23T17:38:41Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。