論文の概要: LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
- arxiv url: http://arxiv.org/abs/2410.10813v1
- Date: Mon, 14 Oct 2024 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:58.945377
- Title: LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
- Title(参考訳): LongMemEval: 長期的な対話型メモリ上でのチャットアシスタントのベンチマーク
- Authors: Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu,
- Abstract要約: 本稿では,チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
長期記憶設計を4つの設計選択に分割する統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 68.97819665784442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language model (LLM)-driven chat assistant systems have integrated memory components to track user-assistant chat histories, enabling more accurate and personalized responses. However, their long-term memory capabilities in sustained interactions remain underexplored. This paper introduces LongMemEval, a comprehensive benchmark designed to evaluate five core long-term memory abilities of chat assistants: information extraction, multi-session reasoning, temporal reasoning, knowledge updates, and abstention. With 500 meticulously curated questions embedded within freely scalable user-assistant chat histories, LongMemEval presents a significant challenge to existing long-term memory systems, with commercial chat assistants and long-context LLMs showing 30% accuracy drop on memorizing information across sustained interactions. We then present a unified framework that breaks down the long-term memory design into four design choices across the indexing, retrieval, and reading stages. Built upon key experimental insights, we propose several memory designs including session decomposition for optimizing value granularity, fact-augmented key expansion for enhancing the index structure, and time-aware query expansion for refining the search scope. Experiment results show that these optimizations greatly improve both memory recall and downstream question answering on LongMemEval. Overall, our study provides valuable resources and guidance for advancing the long-term memory capabilities of LLM-based chat assistants, paving the way toward more personalized and reliable conversational AI.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)によるチャットアシスタントシステムでは,ユーザ支援のチャット履歴を追跡するメモリコンポーネントが統合されており,より正確でパーソナライズされた応答が可能になっている。
しかし、持続的相互作用における長期記憶能力は未解明のままである。
本稿では,情報抽出,マルチセッション推論,時間的推論,知識更新,棄権という,チャットアシスタントの5つのコア長期記憶能力を評価するための総合的なベンチマークであるLongMemEvalを紹介する。
500の厳密にキュレートされた質問が、自由にスケーラブルなユーザアシストのチャット履歴に埋め込まれているため、LongMemEvalは、既存の長期記憶システムに重要な課題を提示している。
次に、長期記憶設計をインデクシング、検索、読み出しの4つの設計選択に分割する統合されたフレームワークを提案する。
鍵となる実験的な知見に基づいて,提案するメモリ設計は,値の粒度を最適化するためのセッション分解,インデックス構造を拡張するためのファクト拡張キー拡張,検索範囲を改良するための時間対応クエリ拡張などである。
実験の結果,これらの最適化はLongMemEval上でのメモリリコールとダウンストリーム質問応答の両方を大幅に改善することがわかった。
全体として、我々の研究はLLMベースのチャットアシスタントの長期記憶能力を向上するための貴重なリソースとガイダンスを提供し、よりパーソナライズされ信頼性の高い会話型AIへの道を開いた。
関連論文リスト
- Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Keep Me Updated! Memory Management in Long-term Conversations [14.587940208778843]
本稿では,長期会話における新しいタスクとメモリ管理データセットを提案する。
本稿では,無効あるいは冗長な情報を排除した新しいメモリ管理機構を提案する。
実験結果から,本研究のアプローチは,エンゲージネスや人間性という点において,ベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-10-17T05:06:38Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。