Fugu-MT 論文翻訳(概要): Evaluating Very Long-Term Conversational Memory of LLM Agents

論文の概要: Evaluating Very Long-Term Conversational Memory of LLM Agents

arxiv url: http://arxiv.org/abs/2402.17753v1
Date: Tue, 27 Feb 2024 18:42:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 14:55:24.764404
Title: Evaluating Very Long-Term Conversational Memory of LLM Agents
Title（参考訳）: llmエージェントの超長期会話記憶の評価
Authors: Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, Yuwei Fang
Abstract要約: 我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。我々は、各エージェントに画像の共有と反応の能力を持たせる。生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
参考スコア（独自算出の注目度）: 95.84027826745609
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing works on long-term open-domain dialogues focus on evaluating model responses within contexts spanning no more than five chat sessions. Despite advancements in long-context large language models (LLMs) and retrieval augmented generation (RAG) techniques, their efficacy in very long-term dialogues remains unexplored. To address this research gap, we introduce a machine-human pipeline to generate high-quality, very long-term dialogues by leveraging LLM-based agent architectures and grounding their dialogues on personas and temporal event graphs. Moreover, we equip each agent with the capability of sharing and reacting to images. The generated conversations are verified and edited by human annotators for long-range consistency and grounding to the event graphs. Using this pipeline, we collect LoCoMo, a dataset of very long-term conversations, each encompassing 300 turns and 9K tokens on avg., over up to 35 sessions. Based on LoCoMo, we present a comprehensive evaluation benchmark to measure long-term memory in models, encompassing question answering, event summarization, and multi-modal dialogue generation tasks. Our experimental results indicate that LLMs exhibit challenges in understanding lengthy conversations and comprehending long-range temporal and causal dynamics within dialogues. Employing strategies like long-context LLMs or RAG can offer improvements but these models still substantially lag behind human performance.
Abstract（参考訳）: 長期的なオープンドメイン対話における既存の作業は、5つ以上のチャットセッションにまたがるコンテキスト内のモデル応答の評価に焦点を当てている。長文大言語モデル (LLM) と検索拡張生成技術 (RAG) の進歩にもかかわらず、非常に長期の対話における有効性は未解明のままである。本研究では,LLMに基づくエージェントアーキテクチャを活用し,その対話をペルソナや時間的イベントグラフに基づいて基礎付けることによって,高品質で長期にわたる対話を実現するための機械学習パイプラインを提案する。さらに、各エージェントに画像の共有と反応の能力を持たせる。生成された会話は、長期的な一貫性とイベントグラフのグラウンド化のために、人間のアノテーションによって検証され、編集される。このパイプラインを使用して、非常に長期にわたる会話のデータセットであるLoCoMoを収集します。セッション数は最大35回。 LoCoMoに基づいて,質問応答,イベント要約,マルチモーダル対話生成タスクを含む,モデル内の長期記憶を測定するための総合評価ベンチマークを提案する。実験結果から,LLMは会話の長大な理解と,対話における時間的・因果的ダイナミクスの理解に課題があることが示唆された。長いコンテキストのLLMやRAGのような戦略を採用することで改善がもたらされるが、これらのモデルは人間のパフォーマンスに大きく遅れている。

関連論文リスト

From What to Respond to When to Respond: Timely Response Generation for Open-domain Dialogue Agents [26.437011114518917]
TimelyChatベンチマークは、適切な時間間隔を予測し、時間条件の応答を生成する言語モデルの能力を評価する。我々は,時間的コモンセンス知識グラフからラベルのないイベント知識を活用することで,大規模トレーニングデータセットを構築した。次に、タイムインターバルを積極的に予測し、それらのインターバルに合わせてタイムリーなレスポンスを生成するために設計された対話エージェントであるTimerを訓練する。
論文参考訳（メタデータ） (2025-06-17T07:56:32Z)
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。 EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T20:29:01Z)
TReMu: Towards Neuro-Symbolic Temporal Reasoning for LLM-Agents with Memory in Multi-Session Dialogues [13.638344516302851]
マルチセッション対話における時間的推論は、過小評価されている重要な課題である。本稿では,LoCoMoからの対話を増強し,複数選択QAを作成することで,新しいベンチマークを構築する手法を提案する。また,LLMエージェントの時間的推論能力の向上を目的とした新しいフレームワークであるTReMuについても紹介する。
論文参考訳（メタデータ） (2025-02-03T18:58:19Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
本稿では,チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。 LongMemEvalは、既存の長期記憶システムにとって重要な課題である。長期記憶設計を4つの設計選択に分割する統合フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-14T17:59:44Z)
Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文参考訳（メタデータ） (2024-09-30T12:01:29Z)
X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。従来の設定では、各参加者は一度に1つのメッセージに制限される。本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文参考訳（メタデータ） (2024-06-04T16:42:17Z)
Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文参考訳（メタデータ） (2023-08-29T04:59:53Z)
Long Time No See! Open-Domain Conversation with Long-Term Persona Memory [37.51131984324123]
長期記憶会話(LeMon)の新たな課題について紹介する。次に、新しい対話データセットDuLeMonとLong-Term Memory(LTM)機構を備えた対話生成フレームワークを構築する。 DuLeMonの結果から,PLATO-LTMは長期対話の整合性において,ベースラインを大幅に上回る可能性が示唆された。
論文参考訳（メタデータ） (2022-03-11T08:41:14Z)
An Exploratory Study on Long Dialogue Summarization: What Works and What's Next [33.1899354772074]
本稿では,長文入力問題に対処し,関連する情報を見つけるための3つの戦略を検証し,長文対話の要約について検討する。 QMSum, MediaSum, SummScreenの3つの長文対話データセットによる実験結果から, 検索・推定パイプラインモデルが最も高い性能を示した。
論文参考訳（メタデータ） (2021-09-10T01:38:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。