論文の概要: LANTERN: Layered Archival and Temporal Episodic Retrieval Network for Long-Context LLM Conversations
- arxiv url: http://arxiv.org/abs/2606.05182v1
- Date: Sat, 18 Apr 2026 23:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.637353
- Title: LANTERN: Layered Archival and Temporal Episodic Retrieval Network for Long-Context LLM Conversations
- Title(参考訳): LANTERN:長期LLM会話のための階層的アーカイブと時間的エピソード検索ネットワーク
- Authors: Rahul Subramani,
- Abstract要約: 会話履歴がコンテクストウィンドウに収まるようにコンパクト化された場合、大きな言語モデルは重要な詳細を捨てる。
我々は,すべての会話をアーカイブし,圧縮後の関連する詳細を復元するメモリ層であるLANTERNを提案する。
94の実際のマルチターン会話において、LANTERN-Rerankは78.3%の検証事実が圧縮によって失われていることを回復した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models discard critical details when conversation history is compacted to fit within finite context windows. We present LANTERN (Layered Archival aNd Temporal Episodic Retrieval Network), a lightweight memory layer that proactively archives every conversation turn and restores relevant details after compaction via hybrid retrieval -- requiring zero LLM calls and adding fewer than 25ms of latency per turn. On 94 real multi-turn conversations (1,894 ground-truth facts, human-validated at kappa=0.81), LANTERN-Rerank recovers 78.3% of verifiable facts lost to compaction, significantly outperforming a faithful reimplementation of MemGPT's LLM-driven extraction and multi-query search pipeline (72.4%; Wilcoxon p<0.0001, 95% CI [+3.1, +8.6] pp, d=0.43) at a fraction of the inference cost. Even without the reranker, base LANTERN matches or exceeds this LLM-driven baseline (p=0.005) using zero LLM calls. When four production LLMs answer fact-bearing questions using LANTERN-restored context, accuracy improves by 8.4 percentage points on average (Wilcoxon p<0.05 for each model individually), demonstrating that the recovered context is useful across diverse model architectures. We release the full evaluation framework -- paired significance tests, failure analysis, fact-type stratification, and compaction robustness analysis -- to support reproducibility and future work.
- Abstract(参考訳): 大きな言語モデルは、会話履歴が有限のコンテキストウィンドウに収まるようにコンパクト化されたときに、重要な詳細を捨てる。
LANTERN(Layered Archival aNd Temporal Episodic Retrieval Network)は、すべての会話のターンを積極的にアーカイブし、ハイブリッド検索によって圧縮後の詳細を復元する軽量メモリ層である。
94の実マルチターンの会話(kappa=0.81で人間検証された1,894件)において、LANTERN-Rerankは78.3%の検証済み事実を回復し、MemGPTのLLM駆動抽出とマルチクエリ検索パイプライン(72.4%、ウィルコクソン p<0.0001, 95% CI [+3.1, +8.6] pp, d=0.43)を推論コストのごく一部で忠実に再実装した。
リランカがなくても、LANTERN はゼロの LLM コールを使用して、この LLM 駆動のベースライン (p=0.005) と一致またはオーバーする。
4つの LLM が LANTERN-restored context を用いて事実を含む質問に答えると、精度は平均8.4 ポイント向上する(各モデル毎のWilcoxon p<0.05)。
再現性と今後の作業をサポートするために、ペアで重要なテスト、障害分析、事実型階層化、コンパクト化ロバストネス分析という、完全な評価フレームワークをリリースします。
関連論文リスト
- Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations [15.537674351419234]
デプロイされたエージェントに対するコンテキスト操作攻撃は、このギャップを積極的に活用する。
明示的な依存性グラフを保持するランタイム検証器でそれをクローズします。
継続がサポートされるかどうかを確認することは、グラフウォークに還元され、リトラクションは同じグラフを通して、サポートを失う結論を正確に宣言する。
論文 参考訳(メタデータ) (2026-05-13T22:54:16Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.857198257988685]
大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。
彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。
本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-13T14:18:13Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。