論文の概要: Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs
- arxiv url: http://arxiv.org/abs/2510.27246v1
- Date: Fri, 31 Oct 2025 07:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.01966
- Title: Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs
- Title(参考訳): 100万を超えるトークン - LLMの長期メモリのベンチマークと拡張
- Authors: Mohammad Tavakoli, Alireza Salemi, Carrie Ye, Mohamed Abdalla, Hamed Zamani, J Ross Mitchell,
- Abstract要約: 本稿では,長期記憶を必要とするタスクに対する大規模言語モデル(LLM)の能力を評価するためのフレームワークを提案する。
次に、100の会話と2000の検証済みの質問からなる新しいベンチマークであるBEAMを構築します。
モデル性能を向上させるために,LLMに3つの相補的メモリシステムを備えたLIGHT-aフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.807582003957005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the abilities of large language models (LLMs) for tasks that require long-term memory and thus long-context reasoning, for example in conversational settings, is hampered by the existing benchmarks, which often lack narrative coherence, cover narrow domains, and only test simple recall-oriented tasks. This paper introduces a comprehensive solution to these challenges. First, we present a novel framework for automatically generating long (up to 10M tokens), coherent, and topically diverse conversations, accompanied by probing questions targeting a wide range of memory abilities. From this, we construct BEAM, a new benchmark comprising 100 conversations and 2,000 validated questions. Second, to enhance model performance, we propose LIGHT-a framework inspired by human cognition that equips LLMs with three complementary memory systems: a long-term episodic memory, a short-term working memory, and a scratchpad for accumulating salient facts. Our experiments on BEAM reveal that even LLMs with 1M token context windows (with and without retrieval-augmentation) struggle as dialogues lengthen. In contrast, LIGHT consistently improves performance across various models, achieving an average improvement of 3.5%-12.69% over the strongest baselines, depending on the backbone LLM. An ablation study further confirms the contribution of each memory component.
- Abstract(参考訳): 長期記憶を必要とするタスクに対する大きな言語モデル(LLM)の能力の評価は、例えば会話の設定において、しばしば物語の一貫性を欠いている既存のベンチマークによって妨げられ、狭いドメインをカバーし、単純なリコール指向タスクのみをテストする。
本稿では,これらの課題に対する包括的解決策を紹介する。
まず,最大1000万トークン,コヒーレント,トポロジ的に多様な会話を自動的に生成する新しいフレームワークを提案する。
そこで我々は,100の会話と2,000の検証済み質問からなる新しいベンチマークBEAMを構築した。
モデル性能を向上させるために,LIGHT-aフレームワークを提案する。LIGHT-aフレームワークはLLMに3つの補完記憶システム(長期記憶,短期記憶,有能な事実を蓄積するためのスクラッチパッド)を備える。
BEAM を用いた実験により,100M トークンコンテキストウィンドウを持つ LLM であっても,対話が長引くにつれて (検索・拡張なしで) 苦労することが明らかとなった。
対照的に、LIGHTは様々なモデルのパフォーマンスを継続的に改善し、バックボーンのLLMに依存する最強のベースラインよりも平均3.5%-12.69%向上した。
アブレーション研究は、各メモリコンポーネントの寄与をさらに確認する。
関連論文リスト
- Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Needle in the Haystack for Memory Based Large Language Models [31.885539843977472]
現在の大規模言語モデル(LLM)は、単純な事実検索タスクではよく機能しない。
動的に適応可能な外部メモリをLCMに結合することでこの問題を軽減することができるか検討する。
テキストサンプルのエピソードを高速に書き書きできるLarimarの外部メモリは、テスト時に、トレーニング中に見られるものよりもはるかに長いコンテキストを扱うために使用できることを示した。
論文 参考訳(メタデータ) (2024-07-01T16:32:16Z) - PerLTQA: A Personal Long-Term Memory Dataset for Memory Classification,
Retrieval, and Synthesis in Question Answering [27.815507347725344]
本研究は、意味記憶とエピソード記憶を組み合わせた革新的なQAデータセットであるPerLTQAを紹介する。
PerLTQAは2種類のメモリと、30文字に対して8,593質問のベンチマークを備えている。
本稿では,メモリ分類,メモリ検索,メモリ合成という3つの主要コンポーネントからなる,メモリ統合と生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T04:09:53Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models [30.48902594738911]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。