論文の概要: Evaluating Very Long-Term Conversational Memory of LLM Agents
- arxiv url: http://arxiv.org/abs/2402.17753v1
- Date: Tue, 27 Feb 2024 18:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 14:55:24.764404
- Title: Evaluating Very Long-Term Conversational Memory of LLM Agents
- Title(参考訳): llmエージェントの超長期会話記憶の評価
- Authors: Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal,
Francesco Barbieri, Yuwei Fang
- Abstract要約: 我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
- 参考スコア(独自算出の注目度): 95.84027826745609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing works on long-term open-domain dialogues focus on evaluating model
responses within contexts spanning no more than five chat sessions. Despite
advancements in long-context large language models (LLMs) and retrieval
augmented generation (RAG) techniques, their efficacy in very long-term
dialogues remains unexplored. To address this research gap, we introduce a
machine-human pipeline to generate high-quality, very long-term dialogues by
leveraging LLM-based agent architectures and grounding their dialogues on
personas and temporal event graphs. Moreover, we equip each agent with the
capability of sharing and reacting to images. The generated conversations are
verified and edited by human annotators for long-range consistency and
grounding to the event graphs. Using this pipeline, we collect LoCoMo, a
dataset of very long-term conversations, each encompassing 300 turns and 9K
tokens on avg., over up to 35 sessions. Based on LoCoMo, we present a
comprehensive evaluation benchmark to measure long-term memory in models,
encompassing question answering, event summarization, and multi-modal dialogue
generation tasks. Our experimental results indicate that LLMs exhibit
challenges in understanding lengthy conversations and comprehending long-range
temporal and causal dynamics within dialogues. Employing strategies like
long-context LLMs or RAG can offer improvements but these models still
substantially lag behind human performance.
- Abstract(参考訳): 長期的なオープンドメイン対話における既存の作業は、5つ以上のチャットセッションにまたがるコンテキスト内のモデル応答の評価に焦点を当てている。
長文大言語モデル (LLM) と検索拡張生成技術 (RAG) の進歩にもかかわらず、非常に長期の対話における有効性は未解明のままである。
本研究では,LLMに基づくエージェントアーキテクチャを活用し,その対話をペルソナや時間的イベントグラフに基づいて基礎付けることによって,高品質で長期にわたる対話を実現するための機械学習パイプラインを提案する。
さらに、各エージェントに画像の共有と反応の能力を持たせる。
生成された会話は、長期的な一貫性とイベントグラフのグラウンド化のために、人間のアノテーションによって検証され、編集される。
このパイプラインを使用して、非常に長期にわたる会話のデータセットであるLoCoMoを収集します。
セッション数は最大35回。
LoCoMoに基づいて,質問応答,イベント要約,マルチモーダル対話生成タスクを含む,モデル内の長期記憶を測定するための総合評価ベンチマークを提案する。
実験結果から,LLMは会話の長大な理解と,対話における時間的・因果的ダイナミクスの理解に課題があることが示唆された。
長いコンテキストのLLMやRAGのような戦略を採用することで改善がもたらされるが、これらのモデルは人間のパフォーマンスに大きく遅れている。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - TReMu: Towards Neuro-Symbolic Temporal Reasoning for LLM-Agents with Memory in Multi-Session Dialogues [13.638344516302851]
マルチセッション対話における時間的推論は、過小評価されている重要な課題である。
本稿では,LoCoMoからの対話を増強し,複数選択QAを作成することで,新しいベンチマークを構築する手法を提案する。
また,LLMエージェントの時間的推論能力の向上を目的とした新しいフレームワークであるTReMuについても紹介する。
論文 参考訳(メタデータ) (2025-02-03T18:58:19Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Long Time No See! Open-Domain Conversation with Long-Term Persona Memory [37.51131984324123]
長期記憶会話(LeMon)の新たな課題について紹介する。
次に、新しい対話データセットDuLeMonとLong-Term Memory(LTM)機構を備えた対話生成フレームワークを構築する。
DuLeMonの結果から,PLATO-LTMは長期対話の整合性において,ベースラインを大幅に上回る可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-11T08:41:14Z) - An Exploratory Study on Long Dialogue Summarization: What Works and
What's Next [33.1899354772074]
本稿では,長文入力問題に対処し,関連する情報を見つけるための3つの戦略を検証し,長文対話の要約について検討する。
QMSum, MediaSum, SummScreenの3つの長文対話データセットによる実験結果から, 検索・推定パイプラインモデルが最も高い性能を示した。
論文 参考訳(メタデータ) (2021-09-10T01:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。