論文の概要: Evaluating Very Long-Term Conversational Memory of LLM Agents
- arxiv url: http://arxiv.org/abs/2402.17753v1
- Date: Tue, 27 Feb 2024 18:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 14:55:24.764404
- Title: Evaluating Very Long-Term Conversational Memory of LLM Agents
- Title(参考訳): llmエージェントの超長期会話記憶の評価
- Authors: Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal,
Francesco Barbieri, Yuwei Fang
- Abstract要約: 我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
- 参考スコア(独自算出の注目度): 95.84027826745609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing works on long-term open-domain dialogues focus on evaluating model
responses within contexts spanning no more than five chat sessions. Despite
advancements in long-context large language models (LLMs) and retrieval
augmented generation (RAG) techniques, their efficacy in very long-term
dialogues remains unexplored. To address this research gap, we introduce a
machine-human pipeline to generate high-quality, very long-term dialogues by
leveraging LLM-based agent architectures and grounding their dialogues on
personas and temporal event graphs. Moreover, we equip each agent with the
capability of sharing and reacting to images. The generated conversations are
verified and edited by human annotators for long-range consistency and
grounding to the event graphs. Using this pipeline, we collect LoCoMo, a
dataset of very long-term conversations, each encompassing 300 turns and 9K
tokens on avg., over up to 35 sessions. Based on LoCoMo, we present a
comprehensive evaluation benchmark to measure long-term memory in models,
encompassing question answering, event summarization, and multi-modal dialogue
generation tasks. Our experimental results indicate that LLMs exhibit
challenges in understanding lengthy conversations and comprehending long-range
temporal and causal dynamics within dialogues. Employing strategies like
long-context LLMs or RAG can offer improvements but these models still
substantially lag behind human performance.
- Abstract(参考訳): 長期的なオープンドメイン対話における既存の作業は、5つ以上のチャットセッションにまたがるコンテキスト内のモデル応答の評価に焦点を当てている。
長文大言語モデル (LLM) と検索拡張生成技術 (RAG) の進歩にもかかわらず、非常に長期の対話における有効性は未解明のままである。
本研究では,LLMに基づくエージェントアーキテクチャを活用し,その対話をペルソナや時間的イベントグラフに基づいて基礎付けることによって,高品質で長期にわたる対話を実現するための機械学習パイプラインを提案する。
さらに、各エージェントに画像の共有と反応の能力を持たせる。
生成された会話は、長期的な一貫性とイベントグラフのグラウンド化のために、人間のアノテーションによって検証され、編集される。
このパイプラインを使用して、非常に長期にわたる会話のデータセットであるLoCoMoを収集します。
セッション数は最大35回。
LoCoMoに基づいて,質問応答,イベント要約,マルチモーダル対話生成タスクを含む,モデル内の長期記憶を測定するための総合評価ベンチマークを提案する。
実験結果から,LLMは会話の長大な理解と,対話における時間的・因果的ダイナミクスの理解に課題があることが示唆された。
長いコンテキストのLLMやRAGのような戦略を採用することで改善がもたらされるが、これらのモデルは人間のパフォーマンスに大きく遅れている。
関連論文リスト
- LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
本稿では,チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
長期記憶設計を4つの設計選択に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Long Time No See! Open-Domain Conversation with Long-Term Persona Memory [37.51131984324123]
長期記憶会話(LeMon)の新たな課題について紹介する。
次に、新しい対話データセットDuLeMonとLong-Term Memory(LTM)機構を備えた対話生成フレームワークを構築する。
DuLeMonの結果から,PLATO-LTMは長期対話の整合性において,ベースラインを大幅に上回る可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-11T08:41:14Z) - An Exploratory Study on Long Dialogue Summarization: What Works and
What's Next [33.1899354772074]
本稿では,長文入力問題に対処し,関連する情報を見つけるための3つの戦略を検証し,長文対話の要約について検討する。
QMSum, MediaSum, SummScreenの3つの長文対話データセットによる実験結果から, 検索・推定パイプラインモデルが最も高い性能を示した。
論文 参考訳(メタデータ) (2021-09-10T01:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。