論文の概要: Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks
- arxiv url: http://arxiv.org/abs/2410.08133v1
- Date: Thu, 10 Oct 2024 17:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:05:45.038237
- Title: Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks
- Title(参考訳): シーケンス順序リコールタスクを用いたLLMにおけるエピソード記憶の評価
- Authors: Mathis Pink, Vy A. Vo, Qinyuan Wu, Jianing Mu, Javier S. Turek, Uri Hasson, Kenneth A. Norman, Sebastian Michelmann, Alexander Huth, Mariya Toneva,
- Abstract要約: 本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。
SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。
155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
- 参考スコア(独自算出の注目度): 42.22616978679253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current LLM benchmarks focus on evaluating models' memory of facts and semantic relations, primarily assessing semantic aspects of long-term memory. However, in humans, long-term memory also includes episodic memory, which links memories to their contexts, such as the time and place they occurred. The ability to contextualize memories is crucial for many cognitive tasks and everyday functions. This form of memory has not been evaluated in LLMs with existing benchmarks. To address the gap in evaluating memory in LLMs, we introduce Sequence Order Recall Tasks (SORT), which we adapt from tasks used to study episodic memory in cognitive psychology. SORT requires LLMs to recall the correct order of text segments, and provides a general framework that is both easily extendable and does not require any additional annotations. We present an initial evaluation dataset, Book-SORT, comprising 36k pairs of segments extracted from 9 books recently added to the public domain. Based on a human experiment with 155 participants, we show that humans can recall sequence order based on long-term memory of a book. We find that models can perform the task with high accuracy when relevant text is given in-context during the SORT evaluation. However, when presented with the book text only during training, LLMs' performance on SORT falls short. By allowing to evaluate more aspects of memory, we believe that SORT will aid in the emerging development of memory-augmented models.
- Abstract(参考訳): 現在のLLMベンチマークは、主に長期記憶のセマンティックな側面を評価するために、事実と意味関係のモデルの記憶を評価することに重点を置いている。
しかしながら、ヒトでは、長期記憶にはエピソード記憶が含まれており、それは記憶が発生した時間や場所などの文脈と結びついている。
記憶の文脈化能力は多くの認知タスクや日常機能に不可欠である。
この形態のメモリは、既存のベンチマークによるLCMでは評価されていない。
LLMにおける記憶評価のギャップに対処するために,認知心理学におけるエピソード記憶の研究に使用されるタスクから順応するシーケンス・オーダー・リコール・タスク(SORT)を導入する。
SORTは、LLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で、追加のアノテーションを必要としない一般的なフレームワークを提供する。
我々は最近パブリックドメインに追加された9冊の本から抽出された36kのセグメントからなる初期評価データセットであるBook-SORTを提案する。
155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
我々は,SORT評価中に関連するテキストがコンテキスト内で与えられた場合,モデルが高精度にタスクを実行できることを発見した。
しかし、トレーニング中のみ本文が提示されると、SORT上でのLLMのパフォーマンスは低下する。
メモリのより多くの側面を評価できるようにすることで、SORTはメモリ拡張モデルの発展に役立ちます。
関連論文リスト
- HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - PerLTQA: A Personal Long-Term Memory Dataset for Memory Classification,
Retrieval, and Synthesis in Question Answering [27.815507347725344]
本研究は、意味記憶とエピソード記憶を組み合わせた革新的なQAデータセットであるPerLTQAを紹介する。
PerLTQAは2種類のメモリと、30文字に対して8,593質問のベンチマークを備えている。
本稿では,メモリ分類,メモリ検索,メモリ合成という3つの主要コンポーネントからなる,メモリ統合と生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T04:09:53Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。