論文の概要: Synthius-Mem: Brain-Inspired Hallucination-Resistant Persona Memory Achieving 94.4% Memory Accuracy and 99.6% Adversarial Robustness on LoCoMo
- arxiv url: http://arxiv.org/abs/2604.11563v1
- Date: Mon, 13 Apr 2026 14:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.624974
- Title: Synthius-Mem: Brain-Inspired Hallucination-Resistant Persona Memory Achieving 94.4% Memory Accuracy and 99.6% Adversarial Robustness on LoCoMo
- Title(参考訳): Synthius-Mem:LoCoMo上で94.4%のメモリ精度と99.6%の逆ロバスト性を実現する脳誘発幻覚耐性人格記憶
- Authors: Artem Gadzhiev, Andrew Kislov,
- Abstract要約: 我々は、脳にインスパイアされた構造化されたペルソナメモリシステムであるSynthius-Memを、根本的に異なるアプローチで紹介する。
LoCoMoのベンチマークでは、Synthius-Memは94.37%の精度を達成し、全システムを超える。
Synthius-Memはトークン使用量をフルコンテキストのリプレイに比べて5倍削減し、精度の向上を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing AI agents with reliable long-term memory that does not hallucinate remains an open problem. Current approaches to memory for LLM agents -- sliding windows, summarization, embedding-based RAG, and flat fact extraction -- each reduce token cost but introduce catastrophic information loss, semantic drift, or uncontrolled hallucination about the user. The structural reason is architectural: every published memory system on the LoCoMo benchmark treats conversation as a retrieval problem over raw or lightly summarized dialogue segments, and none reports adversarial robustness, the ability to refuse questions about facts the user never disclosed. We present Synthius-Mem, a brain-inspired structured persona memory system that takes a fundamentally different approach. Instead of retrieving what was said, Synthius-Mem extracts what is known about the person: a full persona extraction pipeline decomposes conversations into six cognitive domains (biography, experiences, preferences, social circle, work, psychometrics), consolidates and deduplicates per domain, and retrieves structured facts via CategoryRAG at 21.79 ms latency. On the LoCoMo benchmark (ACL 2024, 10 conversations, 1,813 questions), Synthius-Mem achieves 94.37% accuracy, exceeding all published systems including MemMachine (91.69%, adversarial score is not reported) and human performance (87.9 F1). Core memory fact accuracy reaches 98.64%. Adversarial robustness, the hallucination resistance metric that no competing system reports, reaches 99.55%. Synthius-Mem reduces token consumption by ~5x compared to full-context replay while achieving higher accuracy. Synthius-Mem achieves state-of-the-art results on LoCoMo and is, to our knowledge, the only persona memory system that both exceeds human-level performance and reports adversarial robustness.
- Abstract(参考訳): 幻覚を起こさない信頼性のある長期記憶を持つAIエージェントを提供することは、未解決の問題である。
LLMエージェントのメモリへの現在のアプローチ -- スライドウィンドウ、要約、埋め込みベースのRAG、フラットな事実抽出 -- は、トークンコストを削減しつつ、破滅的な情報損失、セマンティックドリフト、あるいはユーザに対する制御不能な幻覚を導入している。
LoCoMoベンチマークで公開されたすべてのメモリシステムは、会話を生または軽量に要約された対話セグメント上の検索問題として扱う。
我々は、脳にインスパイアされた構造化されたペルソナメモリシステムであるSynthius-Memを、根本的に異なるアプローチで紹介する。
完全なペルソナ抽出パイプラインは、6つの認知領域(伝記、経験、嗜好、社会サークル、仕事、心理メトリクス)に会話を分解し、ドメインごとの統合と分離を行い、21.79msの遅延でCategoryRAGを介して構造化された事実を検索する。
LoCoMoベンチマーク(ACL 2024、10の会話、1,813の質問)では、Synthius-Memは94.37%の精度を達成し、MemMachine(91.69%、敵のスコアは報告されていない)や人間のパフォーマンス(87.9 F1)を含む全てのシステムを上回っている。
コアメモリの事実精度は98.64%に達する。
競合するシステムが報告しない幻覚抵抗の指標である対向ロバスト性は99.55%に達する。
Synthius-Memはトークン使用量をフルコンテキストのリプレイに比べて約5倍削減し、精度の向上を実現している。
Synthius-MemはLoCoMoの最先端の成果を達成し、私たちの知る限り、人間レベルのパフォーマンスを超え、敵対的な堅牢さを報告できる唯一のペルソナメモリシステムである。
関連論文リスト
- ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval [59.295767860331004]
RF-Memは、親しみやすい不確実性誘導デュアルパスメモリレトリバーである。
それは、人間のようなデュアルプロセス認識をレトリバーに埋め込む。
一定の予算とレイテンシの制約の下で、ワンショット検索とフルコンテキスト推論を一貫して上回る。
論文 参考訳(メタデータ) (2026-03-10T06:31:44Z) - The Algorithmic Self-Portrait: Deconstructing Memory in ChatGPT [17.579565226391146]
実世界の80人のChatGPTユーザの2,050個のメモリエントリを分析した。
私たちのデータセットの96%のメモリは、会話システムによって一方的に生成されます。
大部分のメモリ(84%)は、ユーザコンテキストで直接ベースになっています。
論文 参考訳(メタデータ) (2026-02-01T21:39:36Z) - Mind the Gap: Why Neural Memory Fails Under Semantic Density [0.0]
現在のAIシステムは、この分離を欠き、ニューラルウェイトだけで両方の機能を試みている。
オンラインニューラルメモリの'安定性ギャップ'を識別する。
崩壊はN=5の事実を高密度で示している。
また、本運用システムでは、スキーマドリフトとバージョンあいまいさを主要な障害モードとみなしています。
論文 参考訳(メタデータ) (2026-01-14T18:55:23Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - Mnemosyne: An Unsupervised, Human-Inspired Long-Term Memory Architecture for Edge-Based LLMs [1.2582867366903179]
我々は、エッジベース大規模言語モデル(LLM)のための、教師なし、人間にインスパイアされた長期記憶アーキテクチャであるMnemosyneを紹介する。
提案手法では, グラフ構造記憶, モジュール状物質および冗長性フィルタ, メモリコミットとプルーニング機構, 時間減衰とリフレッシュ処理による確率的リコールを用いた。
Mnemosyneは、反復的で意味的に類似しているが、時間的に異なる会話は、ナイーブ検索によって制限される縦型医療アシスタントでの使用を目的として設計されている。
論文 参考訳(メタデータ) (2025-10-07T03:32:53Z) - MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。
本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。
本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文 参考訳(メタデータ) (2025-08-26T17:57:16Z) - HEMA : A Hippocampus-Inspired Extended Memory Architecture for Long-Context AI Conversations [0.0]
大規模言語モデル(LLM)は、数百回に及ぶ会話におけるコヒーレンスを維持するのに苦労する。
本稿では,人間の認知プロセスにインスパイアされたデュアルメモリシステムであるHEMAを紹介する。
10Kインデックスのチャンクでは、ベクトルメモリはP@5 >= 0.80 と R@50 >= 0.74 を達成し、精度-リコール曲線の下で領域を2倍にする。
論文 参考訳(メタデータ) (2025-04-23T14:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。