論文の概要: Episodic Memories Generation and Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2501.13121v1
- Date: Tue, 21 Jan 2025 02:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:52.206520
- Title: Episodic Memories Generation and Evaluation Benchmark for Large Language Models
- Title(参考訳): 大規模言語モデルのためのエピソード記憶の生成と評価ベンチマーク
- Authors: Alexis Huet, Zied Ben Houidi, Dario Rossi,
- Abstract要約: 我々は、人間のような認知に向けてAIを前進させるためには、エピソード記憶能力を大規模言語モデルに統合することが不可欠であると主張している。
本研究では,時間的・空間的文脈をカプセル化し,関連する実体を包含し,詳細な記述を行うための構造的アプローチを開発する。
我々は、汚染のない独自のエピソードメモリベンチマークを合成し、LLM性能を評価するためにオープンソースコードとデータセットをリリースする。
- 参考スコア(独自算出の注目度): 7.660368798066376
- License:
- Abstract: Episodic memory -- the ability to recall specific events grounded in time and space -- is a cornerstone of human cognition, enabling not only coherent storytelling, but also planning and decision-making. Despite their remarkable capabilities, Large Language Models (LLMs) lack a robust mechanism for episodic memory: we argue that integrating episodic memory capabilities into LLM is essential for advancing AI towards human-like cognition, increasing their potential to reason consistently and ground their output in real-world episodic events, hence avoiding confabulations. To address this challenge, we introduce a comprehensive framework to model and evaluate LLM episodic memory capabilities. Drawing inspiration from cognitive science, we develop a structured approach to represent episodic events, encapsulating temporal and spatial contexts, involved entities, and detailed descriptions. We synthesize a unique episodic memory benchmark, free from contamination, and release open source code and datasets to assess LLM performance across various recall and episodic reasoning tasks. Our evaluation of state-of-the-art models, including GPT-4 and Claude variants, Llama 3.1, and o1-mini, reveals that even the most advanced LLMs struggle with episodic memory tasks, particularly when dealing with multiple related events or complex spatio-temporal relationships -- even in contexts as short as 10k-100k tokens.
- Abstract(参考訳): エピソード記憶 — 時間と空間に根ざした特定の出来事を思い出す能力 — は人間の認知の基礎であり、一貫性のあるストーリーテリングだけでなく、計画や意思決定も可能にしている。
LLMにエピソードメモリ機能を統合することは、人間のような認知に向けてAIを前進させる上で不可欠であり、その可能性を増大させ、現実のエピソードイベントにおいてその出力を安定的に推論し、それによって相殺を避けるために重要である、と私たちは論じています。
この課題に対処するために,LLMエピソード記憶能力をモデル化し,評価するための包括的なフレームワークを提案する。
認知科学からインスピレーションを得た我々は、エピソードな出来事を表現し、時間的・空間的文脈をカプセル化し、関連する実体と詳細な記述を記述するための構造化されたアプローチを開発した。
我々は、汚染のない独自のエピソードメモリベンチマークを合成し、様々なリコールおよびエピソード推論タスクにおけるLCM性能を評価するために、オープンソースコードとデータセットをリリースする。
GPT-4やClaude variants、Llama 3.1、o1-miniといった最先端のモデルを評価すると、最も先進的なLLMでさえ、特に複数の関連するイベントや複雑な時空間関係を扱う場合、特に10k-100kトークンの短いコンテキストであっても、エピソードメモリタスクに苦しむことが分かる。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks [42.22616978679253]
本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。
SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。
155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
論文 参考訳(メタデータ) (2024-10-10T17:17:38Z) - Human-like Episodic Memory for Infinite Context LLMs [13.211261438927798]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、それでも広範なコンテキストの処理に苦戦している。
本研究では,人間のエピソード記憶と事象認知をLLMに組み込む新しいアプローチであるEM-LLMを紹介する。
EM-LLMは、ベイジアン・サプライズとグラフ理論境界修正の組み合わせを用いて、トークンの列をコヒーレントなエピソード事象に整理する。
論文 参考訳(メタデータ) (2024-07-12T17:34:03Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Empowering Working Memory for Large Language Model Agents [9.83467478231344]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。
エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。
このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T05:59:00Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。