論文の概要: Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory
- arxiv url: http://arxiv.org/abs/2603.17781v1
- Date: Wed, 18 Mar 2026 14:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.758334
- Title: Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory
- Title(参考訳): 第一級オブジェクトとしてのFacts:永続LLMメモリのための知識オブジェクト
- Authors: Oliver Zahn, Simran Chana,
- Abstract要約: 我々は、知識オブジェクト(KO)に対してコンテキスト内メモリをベンチマークする。
コンテキストウィンドウ内では、Claude Sonnet 4.5 は 10 から 7,000 の事実(200K ウィンドウの97.5%)から100%正確なマッチング精度を達成する。
スイッチング機構として密度適応検索を導入し,ベンチマークスイートをリリースする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models increasingly serve as persistent knowledge workers, with in-context memory - facts stored in the prompt - as the default strategy. We benchmark in-context memory against Knowledge Objects (KOs), discrete hash-addressed tuples with O(1) retrieval. Within the context window, Claude Sonnet 4.5 achieves 100% exact-match accuracy from 10 to 7,000 facts (97.5% of its 200K window). However, production deployment reveals three failure modes: capacity limits (prompts overflow at 8,000 facts), compaction loss (summarization destroys 60% of facts), and goal drift (cascading compaction erodes 54% of project constraints while the model continues with full confidence). KOs achieve 100% accuracy across all conditions at 252x lower cost. On multi-hop reasoning, KOs reach 78.9% versus 31.6% for in-context. Cross-model replication across four frontier models confirms compaction loss is architectural, not model-specific. We additionally show that embedding retrieval fails on adversarial facts (20% precision at 1) and that neural memory (Titans) stores facts but fails to retrieve them on demand. We introduce density-adaptive retrieval as a switching mechanism and release the benchmark suite.
- Abstract(参考訳): 大規模言語モデルは、インコンテキストメモリ(インプロンプトに格納された事実)をデフォルト戦略として、永続的なナレッジワーカーとして機能するようになっている。
我々は、知識オブジェクト(KOs)に対するコンテキスト内メモリのベンチマークを行い、O(1)検索による個別のハッシュアドレスタプルについて検討した。
コンテキストウィンドウ内では、Claude Sonnet 4.5 は 10 から 7,000 の事実(200K ウィンドウの97.5%)から100%正確なマッチング精度を達成している。
しかし、プロダクションデプロイメントでは、3つの障害モードが明らかにされている。キャパシティ制限(8000のファクトでオーバーフローの確率)、コンパクト化損失(サマライゼーションは事実の60%を破壊します)、ゴールドリフト(コンパクト化はプロジェクトの制約の54%を侵食し、モデルは完全に信頼を保ちます)。
KOは、全条件にわたって252倍の低コストで100%の精度を達成する。
マルチホップ推論では、KOは78.9%、インコンテキストでは31.6%に達する。
4つのフロンティアモデルにまたがるクロスモデルレプリケーションは、圧縮損失がアーキテクチャであり、モデル固有のものではないことを確認した。
さらに, 組込み検索は敵の事実(精度20%)で失敗し, ニューラルメモリ(タイタン)は事実を記憶するが, 要求に応じてそれらを回収することができないことを示す。
スイッチング機構として密度適応検索を導入し,ベンチマークスイートをリリースする。
関連論文リスト
- Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms [0.0]
RIKERは、人間のアノテーションを使わずに決定論的スコアリングを可能にする基礎的第一評価手法である。
その結果,最も優れたモデルでさえ,非自明な速度で回答を作成できることがわかった。
結果はハードウェアプラットフォーム間で一貫性があり、デプロイメントの決定がハードウェアに依存していないことを確認する。
論文 参考訳(メタデータ) (2026-03-09T11:44:06Z) - Why Agent Caching Fails and How to Fix It: Structured Intent Canonicalization with Few-Shot Learning [0.0]
キャッシュの有効性は、分類精度ではなく、キーの一貫性と精度を必要とする。
構造化意図分解フレームワークであるW5H2を紹介する。
NyayaBench v2 (20クラス)では、SetFitは55.3%を達成し、30言語にまたがる言語間転送を実現している。
論文 参考訳(メタデータ) (2026-02-21T18:25:18Z) - Mind the Gap: Why Neural Memory Fails Under Semantic Density [0.0]
現在のAIシステムは、この分離を欠き、ニューラルウェイトだけで両方の機能を試みている。
オンラインニューラルメモリの'安定性ギャップ'を識別する。
崩壊はN=5の事実を高密度で示している。
また、本運用システムでは、スキーマドリフトとバージョンあいまいさを主要な障害モードとみなしています。
論文 参考訳(メタデータ) (2026-01-14T18:55:23Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - PersonaMem-v2: Towards Personalized Intelligence via Learning Implicit User Personas and Agentic Memory [56.81126490418336]
パーソナライゼーションは、AI能力とアライメントの進歩における次のマイルストーンの1つだ。
PersonaMem-v2は300以上のシナリオ、20,000以上のユーザの好み、128kのコンテキストウィンドウで、1,000の現実的なユーザ-チャットボットインタラクションをシミュレートする。
我々はQwen3-4BをトレーニングしてGPT-5を上回り、暗黙のパーソナライゼーションにおいて53%の精度を達成した。
論文 参考訳(メタデータ) (2025-12-07T06:48:23Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - Enhancing repository-level software repair via repository-aware knowledge graphs [13.747293341707563]
リポジトリレベルのソフトウェア修復は、問題記述とコードパッチの間のセマンティックギャップを埋める際の課題に直面します。
既存のアプローチは、大きな言語モデル(LLM)に依存しており、意味的曖昧さ、構造的文脈の限られた理解、推論能力の不足によって妨げられている。
本稿では,リポジトリアーティファクト(課題とプル要求)とエンティティ(ファイル,クラス,関数)を正確にリンクする新しいリポジトリ対応知識グラフ(KG)を提案する。
KGをマイニングした経路を利用する経路誘導補修機構により,説明とともに文脈情報を拡張することができる。
論文 参考訳(メタデータ) (2025-03-27T17:21:47Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。