論文の概要: Don't Ask the LLM to Track Freshness: A Deterministic Recipe for Memory Conflict Resolution
- arxiv url: http://arxiv.org/abs/2606.01435v1
- Date: Sun, 31 May 2026 20:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.701034
- Title: Don't Ask the LLM to Track Freshness: A Deterministic Recipe for Memory Conflict Resolution
- Title(参考訳): LLMにフレッシュネスの追跡を頼まない - メモリ競合解決のための決定論的レシピ
- Authors: Vikas Reddy, Sumanth Challaram,
- Abstract要約: FC-SH (gpt-4o-mini) において, LLM-judgment 応答パイプラインを候補抽出に置き換え, Python max (serial) を +10.8 点とすることを示す。
レシピはFC-SH(gpt-4o-mini)では78.0%、FC-MH(gpt-4o-mini)では94.8%、FC-MH(gpt-4o-mini)では30.2%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based memory systems increasingly maintain facts that evolve over time, where a recurring failure is conflict resolution: when a fact has multiple contradictory values, which should the agent return? MemoryAgentBench (MAB; Hu et al., 2026) makes this explicit in its FactConsolidation task: facts are numbered, the counterfactual has the higher serial, and agents are told newer facts have larger serials. Yet every published system underperforms: HippoRAG-v2 reaches 54% on single-hop (FC-SH), BM25 48%, Mem0 18%, and the temporal KG Zep/Graphiti just 7%. Multi-hop is near-unsolved (at most 7% across 22 systems). We argue the bottleneck is the assembly step: baselines leave conflict resolution to LLM-mediated retrieval or generation rather than version-aware aggregation. A matched-setup comparison (same backbone, retrieval, chunking, TOP_K) shows that replacing the LLM-judgment answer pipeline with candidate-extraction plus Python max(serial) yields +10.8 points on FC-SH (gpt-4o-mini), widening from +8 at 6K to +21 at 262K. This is a whole-pipeline effect (resolver, prompt, format, and temperature vary jointly); isolating the resolver is future work. The recipe reaches 78.0% on FC-SH (gpt-4o-mini), 94.8% (gpt-4o), and 30.2% on FC-MH (gpt-4o-mini, rising to 51.5% with gpt-4o) via a per-hop deterministic extension of Self-Ask. At matched-262K, it beats HippoRAG-v2 by +28 points and the best published FC-MH result by +20. The implication is corrective for the subfield: the bottleneck on conflict resolution is assembly (post-retrieval aggregation), not storage. A LongMemEval knowledge-update check shows the mechanism ports from max(serial) to max(timestamp) but only ties LLM judgment (57.8% vs 64.4%, n=45): deterministic aggregation is the right primitive for current-value conflicts and must be composed with question-type-aware handling for broader memory QA.
- Abstract(参考訳): LLMベースのメモリシステムは、繰り返し発生する障害が競合解決である、時間とともに進化する事実をますます維持する。
MemoryAgentBench (MAB; Hu et al , 2026)は、FactConsolidationタスクでこれを明示している。
HippoRAG-v2はシングルホップ(FC-SH)で54%、BM25 48%、Mem0 18%、一時的なKG Zep/Graphitiは7%である。
マルチホップはほぼ未解決だ(22のシステムで7%)。
ベースラインはコンフリクトの解決をバージョンアウェアアグリゲーションではなく、LCMによる検索や生成に任せます。
一致したセットアップ比較 (same backbone, retrieve, chunking, TOP_K) の結果, LLM-judgment 応答パイプラインを候補抽出に置き換え, Python max (serial) を FC-SH (gpt-4o-mini) で+10.8 点, 6K で +8 から 262K で +21 に拡大した。
これは全パイプ効果(リゾルバ、プロンプト、フォーマット、温度は共同で変化する)であり、リゾルバを分離することは将来の作業である。
レシピはFC-SH(gpt-4o-mini)では78.0%、FC-MH(gpt-4o-mini)では94.8%、FC-MH(gpt-4o-mini、gpt-4o)では30.2%に達する。
マッチした-262Kでは、HippoRAG-v2を+28ポイント、最も多く発行されたFC-MHを+20ポイント上回った。
競合解決におけるボトルネックは、蓄積ではなくアセンブリ(検索後の集約)である。
LongMemEvalの知識更新チェックは、max(serial)からmax(timestamp)までのメカニズムポートを示すが、LLM判定(57.8%対64.4%、n=45): 決定的集約は、現在の値競合の適切なプリミティブであり、より広範なメモリQAのための質問型認識処理で構成する必要がある。
関連論文リスト
- Sequential Consensus for Multi-Agent LLM Debates: A Wald-SPRT compute governor with calibration-based failure detection [0.0]
マルチエージェントの議論は事実と推論を改善するが、ほとんどのレシピは固定されたラウンドカウントを選択する。
我々は,LLM討論のプラグイン計算として,Wald's Sequential Probability Ratio Test (SPRT)を適用した。
GSM8Kでは、ルールは1.01ラウンド(4.06 LLMコール)で97.0%の精度で終了するが、15回のコールで固定5の討論では99.0%の精度で終了する。
MMLUでは、キャリブレーションされたKLは約0に崩壊し、ルール上限は2.1倍のコストで99.5%となる。
論文 参考訳(メタデータ) (2026-05-18T23:43:12Z) - The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort [51.56484100374058]
Spracklenらは、コード生成された大きな言語モデルは、PyPIやnpmに存在しないパッケージ名を幻覚させることを示した。
199,845対のPythonとJavaScriptプロンプトの幻覚率を測定し、PyPIとnpmマスターリストに対して検証した。
127個のパッケージ名(PyPIは109個,npmは18個)を5つの評価モデルで同一に作成する。
論文 参考訳(メタデータ) (2026-05-16T16:08:52Z) - Measuring Maximum Activations in Open Large Language Models [60.3514350516308]
集中度, MoE, 視覚言語, 中間訓練, 命令調整型変異にまたがる8つのオープンファミリーから27個のチェックポイントで, グローバルおよび階層的に最大値を測定した。
最大アクティベーションサイズは、単純なサイズの副産物ではなく、ファミリー、アーキテクチャ、トレーニングステージに結びついているモデル特性である、と結論付けます。
論文 参考訳(メタデータ) (2026-05-15T03:31:51Z) - OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation [53.88666485159289]
OpenDeepThinkは、集団ベースのテスト時間計算フレームワークで、ペアワイズBradley-Terryの比較によって選択する。
OpenDeepThinkはGemini 3.1 ProのCodeforces Eloを8回のLCMコールラウンドで+405ポイント引き上げる。
CF-73は、国際グランドマスターアノテーションによる73の専門家評価コードフォース問題と、公式判決に対する99%の地域評価合意のキュレートされたセットである。
論文 参考訳(メタデータ) (2026-05-14T17:57:40Z) - Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。
我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。
LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文 参考訳(メタデータ) (2026-05-07T13:52:59Z) - The Override Gap: A Magnitude Account of Knowledge Conflict Failure in Hypernetwork-Based Instant LLM Adaptation [6.290180827867576]
ハイパーネットワークベースの手法は、文書を単一のフォワードパスで LLM の重みに内部化する。
この文書が事前訓練された知識と矛盾すると、最も深い事実について精度は46.4%に低下する。
失敗は表現的問題というよりも,大問題であることを示す。
論文 参考訳(メタデータ) (2026-04-26T14:59:14Z) - vstash: Local-First Hybrid Retrieval with Adaptive Fusion for LLM Agents [0.0]
ベクトル類似性検索と全文キーワードマッチングを組み合わせたローカルファーストの文書メモリシステム**vstash**を提案する。
すべてのデータはsqlite-vecを使って近傍の検索に近づき、FTS5でキーワードマッチングを行う単一のファイルに格納される。
論文 参考訳(メタデータ) (2026-04-16T19:22:58Z) - Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations [2.6382975801439836]
セグメントは最小限のキーワードのブックマークに置き換えられ、モデルはオンデマンドで全コンテンツを取得するリコール()ツールが与えられる。
LoCoMoベンチマークでは、コラボレーティブページングは、トランケーション、BM25、ワードオーバーラップ検索、検索ツールベースライン、フルコンテキストの6つのメソッドの中で、最も高い回答品質を達成する。
次に、境界戦略と消去政策(3,176個の合成プローブ、1,600個のLoCoMoプローブ)に対する5×4のアブレーションでページング設計空間を研究する。
論文 参考訳(メタデータ) (2026-04-14T07:06:35Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - Improving Object Detection, Multi-object Tracking, and Re-Identification
for Disaster Response Drones [11.84256047381657]
本研究の目的は,災害対応ドローンの複数のカメラとコンピュータビジョンを用いて,複数の物体を検出し,識別することである。
これらの問題を解決するために2つの簡単なアプローチが提案されている。
1つは高速マルチカメラシステムで、もう1つはトラックレットアソシエーションを追加し、もう1つは制限を解決するために高性能検出器とトラッカーを組み込んでいる。
論文 参考訳(メタデータ) (2022-01-05T07:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。