論文の概要: Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations
- arxiv url: http://arxiv.org/abs/2604.12376v1
- Date: Tue, 14 Apr 2026 07:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.306314
- Title: Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations
- Title(参考訳): 長軸LLM会話のためのキーワードブックマークを用いた協調記憶ページング
- Authors: Ziyang Liu,
- Abstract要約: セグメントは最小限のキーワードのブックマークに置き換えられ、モデルはオンデマンドで全コンテンツを取得するリコール()ツールが与えられる。
LoCoMoベンチマークでは、コラボレーティブページングは、トランケーション、BM25、ワードオーバーラップ検索、検索ツールベースライン、フルコンテキストの6つのメソッドの中で、最も高い回答品質を達成する。
次に、境界戦略と消去政策(3,176個の合成プローブ、1,600個のLoCoMoプローブ)に対する5×4のアブレーションでページング設計空間を研究する。
- 参考スコア(独自算出の注目度): 2.6382975801439836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When LLM conversations grow beyond the context window, old content must be evicted -- but how does the model recover it when needed? We propose cooperative paging: evicted segments are replaced with minimal keyword bookmarks ([pN:keywords], ~8-24 tokens each), and the model is given a recall() tool to retrieve full content on demand. On the LoCoMo benchmark (10 real multi-session conversations, 300+ turns), cooperative paging achieves the highest answer quality among six methods -- outperforming truncation, BM25, word-overlap retrieval, a search-tool baseline, and full context -- on four models (GPT-4o-mini, DeepSeek-v3.2, Claude Haiku, GLM-5), confirmed by four independent LLM judges ($p=0.017$, paired bootstrap). We then study the paging design space with a 5x4 ablation over boundary strategies and eviction policies (3,176 synthetic probes, 1,600 LoCoMo probes). Key findings: (1) coarse fixed-size pages (fixed_20) reach 96.7% while content-aware topic_shift collapses to 56.7%; (2) eviction policy choice is data-dependent (FIFO best on synthetic, LFU on LoCoMo); (3) two bookmark generation strategies improve over the heuristic baseline (+4.4 and +8.7 E2E points); (4) the remaining bottleneck is bookmark discrimination -- the model triggers recall() 96% of the time but selects the correct page only 57% when bookmarks are insufficiently distinctive. Keyword specificity alone accounts for a 25 percentage point accuracy difference.
- Abstract(参考訳): LLMの会話がコンテキストウィンドウを超えて大きくなると、古いコンテンツは削除されなければならない。
削除されたセグメントを最小のキーワードブックマーク([pN:keywords], ~8-24トークン)に置き換えて, モデルに要求に応じて全コンテンツを取得するリコール()ツールを付与する。
LoCoMoベンチマーク(10つの実マルチセッションの会話、300以上のターン)では、協力的ページングは、4つのモデル(GPT-4o-mini、DeepSeek-v3.2、Claude Haiku、GLM-5)上で、トランケーション、BM25、ワードオーバーラップ検索、検索ツールベースライン、フルコンテキストを上回り、独立したLCMの4人の審査員(p=0.017$、ペアブートストラップ)の間で最も高い回答品質を達成する。
次に、境界戦略と消去政策(3,176個の合成プローブ、1,600個のLoCoMoプローブ)について、5x4のアブレーションでページング設計空間を研究する。
主な発見:(1)粗い固定サイズページ(fixed_20)は96.7%に達するが、内容認識のトピック_shiftは56.7%に崩壊し、(2)消去ポリシーの選択はデータ依存(FIFO Best on synthetic, LFU on LoCoMo)、(3)2つのブックマーク生成戦略はヒューリスティックベースライン(+4.4および+8.7E2Eポイント)よりも改善され、(4)残りのボトルネックはブックマーク識別である。
キーワードの特異性だけでは、25パーセントの精度差がある。
関連論文リスト
- SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval [0.0]
SmartSearchは完全に決定論的パイプラインを使用して、生の非構造化会話履歴から検索する。
SmartSearchはLoCoMoで93.5%、LongMemEval-Sベンチマークで88.4%を達成した。
論文 参考訳(メタデータ) (2026-03-16T17:53:21Z) - The Missing Memory Hierarchy: Demand Paging for LLM Context Windows [0.0]
我々は、コンテキストウィンドウのための需要パージングシステムPichayを紹介する。
681ターン以上のライブデプロイメントでは、コンテキスト消費を最大93%削減する(5,038KBから339KB)。
極端に持続的な圧力の下では、システムは引き続き運用されるが、期待されるスラッシングの病理を示し、繰り返し削除されたコンテンツに障害が生じる。
論文 参考訳(メタデータ) (2026-03-09T23:38:32Z) - MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - Domain-Adaptive and Scalable Dense Retrieval for Content-Based Recommendation [0.0]
本稿では,Amazon Reviews 2023 (Fashion) サブセットを微調整した2-towerバイエンコーダをベースとした,スケーラブルな高密度検索システムを提案する。
我々は、レビューテキスト(クエリプロキシとして)とアイテムメタデータ(ポジティブドキュメントとして)からトレーニングペアを構築し、500トークンの最大シーケンス長で50,000のサンプルインタラクションを微調整する。
826,402のカタログ項目に対するレビュー・ツー・タイトルのベンチマークでは、Recall@10が0.26(BM25)から0.66に改善されました。
論文 参考訳(メタデータ) (2026-01-31T20:58:23Z) - Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。
我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。
すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文 参考訳(メタデータ) (2026-01-17T21:33:27Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。
干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する13の人気のある大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-02-07T18:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。