Fugu-MT 論文翻訳(概要): Episodic Memories Generation and Evaluation Benchmark for Large Language Models

論文の概要: Episodic Memories Generation and Evaluation Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2501.13121v1
Date: Tue, 21 Jan 2025 02:16:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.089818
Title: Episodic Memories Generation and Evaluation Benchmark for Large Language Models
Title（参考訳）: 大規模言語モデルのためのエピソード記憶の生成と評価ベンチマーク
Authors: Alexis Huet, Zied Ben Houidi, Dario Rossi,
Abstract要約: 我々は、人間のような認知に向けてAIを前進させるためには、エピソード記憶能力を大規模言語モデルに統合することが不可欠であると主張している。本研究では,時間的・空間的文脈をカプセル化し,関連する実体を包含し,詳細な記述を行うための構造的アプローチを開発する。我々は、汚染のない独自のエピソードメモリベンチマークを合成し、LLM性能を評価するためにオープンソースコードとデータセットをリリースする。
参考スコア（独自算出の注目度）: 7.660368798066376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Episodic memory -- the ability to recall specific events grounded in time and space -- is a cornerstone of human cognition, enabling not only coherent storytelling, but also planning and decision-making. Despite their remarkable capabilities, Large Language Models (LLMs) lack a robust mechanism for episodic memory: we argue that integrating episodic memory capabilities into LLM is essential for advancing AI towards human-like cognition, increasing their potential to reason consistently and ground their output in real-world episodic events, hence avoiding confabulations. To address this challenge, we introduce a comprehensive framework to model and evaluate LLM episodic memory capabilities. Drawing inspiration from cognitive science, we develop a structured approach to represent episodic events, encapsulating temporal and spatial contexts, involved entities, and detailed descriptions. We synthesize a unique episodic memory benchmark, free from contamination, and release open source code and datasets to assess LLM performance across various recall and episodic reasoning tasks. Our evaluation of state-of-the-art models, including GPT-4 and Claude variants, Llama 3.1, and o1-mini, reveals that even the most advanced LLMs struggle with episodic memory tasks, particularly when dealing with multiple related events or complex spatio-temporal relationships -- even in contexts as short as 10k-100k tokens.
Abstract（参考訳）: エピソード記憶 — 時間と空間に根ざした特定の出来事を思い出す能力 — は人間の認知の基礎であり、一貫性のあるストーリーテリングだけでなく、計画や意思決定も可能にしている。 LLMにエピソードメモリ機能を統合することは、人間のような認知に向けてAIを前進させる上で不可欠であり、その可能性を増大させ、現実のエピソードイベントにおいてその出力を安定的に推論し、それによって相殺を避けるために重要である、と私たちは論じています。この課題に対処するために,LLMエピソード記憶能力をモデル化し,評価するための包括的なフレームワークを提案する。認知科学からインスピレーションを得た我々は、エピソードな出来事を表現し、時間的・空間的文脈をカプセル化し、関連する実体と詳細な記述を記述するための構造化されたアプローチを開発した。我々は、汚染のない独自のエピソードメモリベンチマークを合成し、様々なリコールおよびエピソード推論タスクにおけるLCM性能を評価するために、オープンソースコードとデータセットをリリースする。 GPT-4やClaude variants、Llama 3.1、o1-miniといった最先端のモデルを評価すると、最も先進的なLLMでさえ、特に複数の関連するイベントや複雑な時空間関係を扱う場合、特に10k-100kトークンの短いコンテキストであっても、エピソードメモリタスクに苦しむことが分かる。

関連論文リスト

If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
Echo: A Large Language Model with Temporal Episodic Memory [10.576032603739675]
時間的エピソードメモリで拡張された大きな言語モデルであるEchoを導入する。実験の結果,EchoはEM-Testで最先端のLLMを大幅に上回っていることがわかった。すべてのデータセット、コード、モデルの重み付けをオープンソースにします。
論文参考訳（メタデータ） (2025-02-22T05:25:20Z)
Event Segmentation Applications in Large Language Model Enabled Automated Recall Assessments [0.0]
イベントセグメンテーションは、経験を知覚し、エンコードし、リコールする方法の中心です。現在の研究手法は、セグメンテーションパターンとリコール能力を評価するために人間に大きく依存している。大規模言語モデル(LLM)を利用してイベントセグメンテーションの自動化とリコールの評価を行う。
論文参考訳（メタデータ） (2025-02-19T00:48:51Z)
Position: Episodic Memory is the Missing Piece for Long-Term LLM Agents [43.94686139164999]
本稿では,多言語モデル(LLM)エージェントのためのエピソディックメモリフレームワークを提案する。このポジションペーパーは、長期的なエージェントの開発を促進するために、明らかに統合されたエピソード記憶に焦点を合わせるのが正しい時だと論じている。
論文参考訳（メタデータ） (2025-02-10T19:14:51Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks [42.22616978679253]
本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。 SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。 155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
論文参考訳（メタデータ） (2024-10-10T17:17:38Z)
Human-like Episodic Memory for Infinite Context LLMs [13.211261438927798]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、それでも広範なコンテキストの処理に苦戦している。本研究では,人間のエピソード記憶と事象認知をLLMに組み込む新しいアプローチであるEM-LLMを紹介する。 EM-LLMは、ベイジアン・サプライズとグラフ理論境界修正の組み合わせを用いて、トークンの列をコヒーレントなエピソード事象に整理する。
論文参考訳（メタデータ） (2024-07-12T17:34:03Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Empowering Working Memory for Large Language Model Agents [9.83467478231344]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文参考訳（メタデータ） (2023-12-22T05:59:00Z)
Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文参考訳（メタデータ） (2023-10-10T15:41:26Z)
Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-26T07:25:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。