論文の概要: MemBench: Towards Real-world Evaluation of Memory-Augmented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2409.15240v1
- Date: Mon, 23 Sep 2024 17:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:52:58.723944
- Title: MemBench: Towards Real-world Evaluation of Memory-Augmented Dialogue Systems
- Title(参考訳): MemBench: メモリ拡張対話システムの現実的評価に向けて
- Authors: Junqing He, Liang Zhu, Qi Wei, Rui Wang, Jiaxing Zhang,
- Abstract要約: 長期記憶はチャットボットや対話システム(DS)にとって非常に重要であり、研究者は多数のメモリ拡張DSを開発した。
彼らはクエリが与えられた事実情報の正確さや生成したレスポンスの難解さだけを測定したが、それはそのパフォーマンスをほとんど反映しなかった。
本研究では,認知科学と心理学理論に基づく,記憶のリコールパラダイムを網羅する新しいベンチマークを構築した。
メモリベンチマーク(MemBench)は、認知科学における2句理論(メモリ検索、メモリ認識、注入)に基づく2つのタスクを含む。
- 参考スコア(独自算出の注目度): 12.058391678605163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term memory is so important for chatbots and dialogue systems (DS) that researchers have developed numerous memory-augmented DS. However, their evaluation methods are different from the real situation in human conversation. They only measured the accuracy of factual information or the perplexity of generated responses given a query, which hardly reflected their performance. Moreover, they only consider passive memory retrieval based on similarity, neglecting diverse memory-recalling paradigms in humans, e.g. emotions and surroundings. To bridge the gap, we construct a novel benchmark covering various memory recalling paradigms based on cognitive science and psychology theory. The Memory Benchmark (MemBench) contains two tasks according to the two-phrase theory in cognitive science: memory retrieval, memory recognition and injection. The benchmark considers both passive and proactive memory recalling based on meta information for the first time. In addition, novel scoring aspects are proposed to comprehensively measure the generated responses. Results from the strongest embedding models and LLMs on MemBench show that there is plenty of room for improvement in existing dialogue systems. Extensive experiments also reveal the correlation between memory injection and emotion supporting (ES) skillfulness, and intimacy. Our code and dataset will be released.
- Abstract(参考訳): 長期記憶はチャットボットや対話システム(DS)にとって非常に重要であり、研究者は多数のメモリ拡張DSを開発した。
しかし,その評価手法は,人間の会話の実際の状況と異なる。
彼らはクエリが与えられた事実情報の正確さや生成したレスポンスの難解さだけを測定したが、それはそのパフォーマンスをほとんど反映しなかった。
さらに、類似性に基づいた受動的メモリ検索のみを考慮し、人間、eg感情、環境における多様なメモリリコールパラダイムを無視する。
このギャップを埋めるために,認知科学と心理学理論に基づく様々な記憶想起パラダイムをカバーする新しいベンチマークを構築した。
メモリベンチマーク(MemBench)は、認知科学における2句理論(メモリ検索、メモリ認識、注入)に基づく2つのタスクを含む。
このベンチマークでは、初めてメタ情報に基づいて、受動的メモリとプロアクティブメモリの両方をリコールする。
さらに、生成した応答を包括的に測定する新しいスコアリング手法を提案する。
MemBench上での最強埋め込みモデルとLLMの結果から、既存の対話システムには改善の余地が十分にあることが分かる。
大規模な実験では、記憶注射と感情支援(ES)スキルフルネスと親密さの相関も明らかにされている。
コードとデータセットはリリースされます。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Ever-Evolving Memory by Blending and Refining the Past [30.63352929849842]
CREEMは長期会話のための新しい記憶システムである。
過去と現在の情報をシームレスに接続すると同時に、障害情報を忘れる能力も備えている。
論文 参考訳(メタデータ) (2024-03-03T08:12:59Z) - Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term
Memory [24.464945401037056]
歴史的思考を記憶するための進化した記憶を大規模言語モデルで維持できるTiM(Think-in-Memory)を提案する。
我々は,多種多様な話題をカバーする実世界および模擬対話の質的,定量的な実験を行う。
論文 参考訳(メタデータ) (2023-11-15T06:08:35Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - Memory-and-Anticipation Transformer for Online Action Understanding [52.24561192781971]
本稿では,過去,現在,未来を含む時間構造全体をモデル化する,メモリ予測に基づく新しいパラダイムを提案する。
本稿では,メモリ・アンド・アンティフィケーション・トランスフォーマ(MAT)を提案する。
論文 参考訳(メタデータ) (2023-08-15T17:34:54Z) - MemoryBank: Enhancing Large Language Models with Long-Term Memory [7.654404043517219]
本稿では,大規模言語モデルに適した新しいメモリ機構であるMemoryBankを提案する。
MemoryBankは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化し、過去のインタラクションから情報を合成することで、ユーザの個性に適応することを可能にする。
論文 参考訳(メタデータ) (2023-05-17T14:40:29Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - Learning Human Cognitive Appraisal Through Reinforcement Memory Unit [63.83306892013521]
逐次評価タスクにおける人間の認知評価の効果を生かしたリカレントニューラルネットワークのためのメモリ強調機構を提案する。
記憶増強機構を2つの正および負の強化記憶とともに評価状態を含む強化記憶ユニット(RMU)として概念化する。
論文 参考訳(メタデータ) (2022-08-06T08:56:55Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。