論文の概要: SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents
- arxiv url: http://arxiv.org/abs/2606.05761v1
- Date: Thu, 04 Jun 2026 06:43:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.602228
- Title: SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents
- Title(参考訳): SubtleMemory: 長距離AIエージェントにおける微粒リレーショナルメモリ識別のためのベンチマーク
- Authors: Wenxuan Wang, Haoyu Sun, Fukuan Hou, Mingyang Song, Weinan Zhang, Yu Cheng, Yang Yang,
- Abstract要約: 本稿では,長期にわたるAIエージェントにおける微粒なリレーショナルメモリ識別のためのベンチマークであるSubtleMemoryを紹介する。
我々は,6つのスタンドアロンメモリシステム,ネイティブメモリモジュールを持つ2つのClawスタイルエージェント,プラグインメモリモジュールを持つ3つのClawスタイルエージェントを評価した。
- 参考スコア(独自算出の注目度): 38.778004697710855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories grow, they may reinforce one another, diverge across contexts, or directly conflict, making correct assistance depend on memory relations rather than isolated recall. Existing long-term memory benchmarks rarely probe how agents preserve and utilize such relations during downstream tasks. To address this gap, we introduce SubtleMemory, a benchmark for fine-grained relational memory discrimination in long-running AI agents. SubtleMemory constructs relation-controlled latent semantic artifacts whose variants instantiate complementary, nuanced, or contradictory relations, and embeds them into realistic user-agent histories, requiring agents to recover distributed relational structures during later queries and instructions. The benchmark contains 1,522 evaluation instances over 10 long histories, grounded in 1,090 relation-controlled memory-variant sets and spanning user-related and non-user-related queries. Evaluating six standalone memory systems, two Claw-style agents with native memory modules, and three Claw-style agents with plugin memory modules, we find that current systems remain weak on fine-grained relational memory discrimination. We further introduce diagnostic protocols that reveal distinct capability profiles across memory preservation, retrieval, and downstream reasoning stages.
- Abstract(参考訳): OpenClawのような永続的なAIアシスタントは、長期的なインタラクションを通じて、関連するメモリの大規模なコレクションを蓄積する。
これらの記憶が成長するにつれて、互いに強化したり、コンテキストをまたいだり、直接衝突したりし、孤立した記憶というよりは記憶関係に依存する。
既存の長期メモリベンチマークでは、下流タスクにおいてエージェントがどのようにそのような関係を保ち利用しているかを調査することは滅多にない。
このギャップに対処するために、長時間動作するAIエージェントにおける微粒なリレーショナルメモリ識別のためのベンチマークであるSubtleMemoryを紹介した。
SubtleMemoryは、相補的、ニュアンス的、あるいは矛盾した関係をインスタンス化し、それらを現実的なユーザエージェントの履歴に埋め込んで、後続のクエリや命令の間、エージェントが分散リレーショナル構造を復元する必要がある関係制御の潜時的アーティファクトを構築する。
ベンチマークには、10の長い履歴の上に1,522の評価インスタンスが含まれており、1,090のリレーショナルコントロールされたメモリ不変セットと、ユーザ関連および非ユーザ関連クエリにまたがる。
6つのスタンドアロンメモリシステム、ネイティブメモリモジュールを持つClawスタイルエージェント、2つのClawスタイルエージェント、プラグインメモリモジュールを持つClawスタイルエージェントを評価した結果、現在のシステムは詳細なリレーショナルメモリ識別に弱いままであることがわかった。
さらに,記憶の保存,検索,下流推論の段階にわたる特徴プロファイルを明らかにするための診断プロトコルを導入する。
関連論文リスト
- Beyond Similarity: Trustworthy Memory Search for Personal AI Agents [25.265839311088516]
個人AIエージェントにおける信頼境界としてのメモリ探索について検討する。
MemGateは、信頼性の高いメモリ検索のための軽量でデプロイ可能なメモリプラグインである。
論文 参考訳(メタデータ) (2026-06-04T11:54:29Z) - Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents [51.30250860677378]
本稿では,連想記憶グラフとアクティブな再構成機構を組み合わせたフレームワークであるMRAgentを提案する。
Cue-Tag-Contentグラフ上で実行することで,メモリアクセスに直接推論を統合する。
LoCoMoベンチマークとLongMemEvalベンチマークの実験は、強いベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-06-04T11:29:46Z) - MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents [0.33842793760651557]
制御された介入の下で,候補記憶がモデル応答に与える影響を推定する因果記憶選択手法を提案する。
以上の結果から,CMIは,信頼性の高い長期記憶には関連性のみではなく,因果的有用性に基づくコンテキスト選択が必要であることが示唆された。
論文 参考訳(メタデータ) (2026-05-17T20:21:55Z) - MemCollab: Cross-Agent Memory Collaboration via Contrastive Trajectory Distillation [16.57908722474221]
大規模言語モデル(LLM)ベースのエージェントは、過去の問題解決経験から知識を再利用するためのメモリメカニズムに依存している。
既存のアプローチは、通常、エージェントごとの方法でメモリを構築し、格納された知識を単一のモデルの推論スタイルに密結合する。
その結果,エージェント間でのメモリ転送は,タスク関連知識をエージェント固有のバイアスと結び付けるなど,パフォーマンスを低下させることがわかった。
我々は,同一タスク上で異なるエージェントが生成する軌道の推論を対比することにより,エージェント非依存メモリを構成する協調メモリフレームワークであるMemCollabを提案する。
論文 参考訳(メタデータ) (2026-03-24T14:05:47Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。