論文の概要: Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures
- arxiv url: http://arxiv.org/abs/2603.17244v1
- Date: Wed, 18 Mar 2026 00:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.462432
- Title: Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures
- Title(参考訳): AIエージェントのためのグラフネイティブ認知メモリ:バージョン管理メモリアーキテクチャのための形式的信念改訂セマンティクス
- Authors: Young Bin Park,
- Abstract要約: Kumihoは、形式的信念修正セマンティクスに基づくグラフネイティブな認知記憶アーキテクチャである。
アーキテクチャは、二重ストアモデル(Redisワーキングメモリ、Neo4j長期グラフ)を実装し、ハイブリッドフルテキストとベクトル検索を備える。
- 参考スコア(独自算出の注目度): 0.6091702876917279
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While individual components for AI agent memory exist in prior systems, their architectural synthesis and formal grounding remain underexplored. We present Kumiho, a graph-native cognitive memory architecture grounded in formal belief revision semantics. The structural primitives required for cognitive memory -- immutable revisions, mutable tag pointers, typed dependency edges, URI-based addressing -- are identical to those required for managing agent-produced work as versionable assets, enabling a unified graph-native architecture that serves both purposes. The central formal contribution is a correspondence between the AGM belief revision framework and the operational semantics of a property graph memory system, proving satisfaction of the basic AGM postulates (K*2--K*6) and Hansson's belief base postulates (Relevance, Core-Retainment). The architecture implements a dual-store model (Redis working memory, Neo4j long-term graph) with hybrid fulltext and vector retrieval. On LoCoMo (token-level F1), Kumiho achieves 0.565 overall F1 (n=1,986) including 97.5% adversarial refusal accuracy. On LoCoMo-Plus, a Level-2 cognitive memory benchmark testing implicit constraint recall, Kumiho achieves 93.3% judge accuracy (n=401); independent reproduction by the benchmark authors yielded results in the mid-80% range, still substantially outperforming all published baselines (best: Gemini 2.5 Pro, 45.7%). Three architectural innovations drive the results: prospective indexing (LLM-generated future-scenario implications indexed at write time), event extraction (structured causal events preserved in summaries), and client-side LLM reranking. The architecture is model-decoupled: switching the answer model from GPT-4o-mini (~88%) to GPT-4o (93.3%) improves end-to-end accuracy without pipeline changes, at a total evaluation cost of ~$14 for 401 entries.
- Abstract(参考訳): AIエージェントメモリの個々のコンポーネントは以前のシステムに存在するが、それらのアーキテクチャ合成と形式的基盤はいまだ探索されていない。
フォーマルな信念リビジョンセマンティクスに基づくグラフネイティブな認知記憶アーキテクチャであるKumihoを紹介する。
認知メモリに必要な構造的プリミティブ -- イミュータブルリビジョン、変更可能なタグポインタ、型付き依存性エッジ、URIベースのアドレッシング -- は、エージェントが生成した作業をバージョナブルアセットとして管理するために必要なものと同一であり、両方の目的のために統合されたグラフネイティブアーキテクチャを実現する。
中心的な形式的貢献は、AGMの信念修正フレームワークとプロパティグラフメモリシステムの操作意味論の対応であり、基本的なAGMの仮定(K*2--K*6)とハンソンの信念ベースの仮定(Relevance, Core-Retainment)の満足度を証明するものである。
アーキテクチャは、二重ストアモデル(Redisワーキングメモリ、Neo4j長期グラフ)を実装し、ハイブリッドフルテキストとベクトル検索を備える。
LoCoMo (token-level F1) では、Kumiho は 0.565 の総合 F1 (n=1,986) を達成する。
レベル2の認知メモリベンチマークであるLoCoMo-Plusでは、暗黙の制約リコールをテストし、クミホは93.3%の判定精度(n=401)を達成した。
3つのアーキテクチャ革新は、予測索引付け(LLMが生成した書き込み時にインデックス付けされた将来のシナリオ含意)、イベント抽出(要約で保存される構造化因果イベント)、クライアント側LCMの再評価という結果を生み出す。
解答モデルを GPT-4o-mini (~88%) から GPT-4o (93.3%) に切り替えると、パイプライン変更なしでエンドツーエンドの精度が向上し、401エントリの総評価コストは ~14ドルになる。
関連論文リスト
- Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval [0.0]
大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。
本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。
システムは5つの多様なベンチマークから650のクエリで評価された。
論文 参考訳(メタデータ) (2026-03-18T15:59:30Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - SuperLocalMemory V3: Information-Geometric Foundations for Zero-LLM Enterprise Agent Memory [0.0]
永続メモリはAIエージェントの中心的な能力である。
現在のシステムでは、検索にはコサイン類似性、塩分分解にはコサイン類似性を使用し、公式な矛盾検出は行わない。
我々は3つのコントリビューションを通じて情報幾何学の基礎を確立する。
論文 参考訳(メタデータ) (2026-03-15T20:20:54Z) - MAPLE: A Sub-Agent Architecture for Memory, Learning, and Personalization in Agentic AI Systems [0.0]
大規模言語モデル(LLM)エージェントは複雑なタスクのための強力なツールとして登場したが、個々のユーザへの適応能力は基本的に制限されている。
現在のシステムは3つの異なるメカニズムではなく、記憶、学習、パーソナライゼーションを統一された能力として扱う。
メモリは記憶と検索のインフラを処理し、学習は蓄積された相互作用から知性を非同期に抽出し、パーソナライゼーションは有限のコンテキスト予算内で学習知識をリアルタイムで適用する。
論文 参考訳(メタデータ) (2026-02-03T03:46:39Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - PersonaMem-v2: Towards Personalized Intelligence via Learning Implicit User Personas and Agentic Memory [56.81126490418336]
パーソナライゼーションは、AI能力とアライメントの進歩における次のマイルストーンの1つだ。
PersonaMem-v2は300以上のシナリオ、20,000以上のユーザの好み、128kのコンテキストウィンドウで、1,000の現実的なユーザ-チャットボットインタラクションをシミュレートする。
我々はQwen3-4BをトレーニングしてGPT-5を上回り、暗黙のパーソナライゼーションにおいて53%の精度を達成した。
論文 参考訳(メタデータ) (2025-12-07T06:48:23Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Is Architectural Complexity Overrated? Competitive and Interpretable Knowledge Graph Completion with RelatE [6.959701672059059]
RelatEは、エンティティとリレーションの二重表現を効率的に統合する、解釈可能でモジュラーな方法である。
標準ベンチマークにおいて、競争力や優れたパフォーマンスを達成する。
摂動実験では、MRRはTransEと比較して最大61%、RotatEと比較して最大19%減少し、ロバスト性が改善された。
論文 参考訳(メタデータ) (2025-05-25T04:36:52Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。