Fugu-MT 論文翻訳(概要): MemBench: Towards Real-world Evaluation of Memory-Augmented Dialogue Systems

論文の概要: MemBench: Towards Real-world Evaluation of Memory-Augmented Dialogue Systems

arxiv url: http://arxiv.org/abs/2409.15240v1
Date: Mon, 23 Sep 2024 17:38:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 13:52:58.723944
Title: MemBench: Towards Real-world Evaluation of Memory-Augmented Dialogue Systems
Title（参考訳）: MemBench: メモリ拡張対話システムの現実的評価に向けて
Authors: Junqing He, Liang Zhu, Qi Wei, Rui Wang, Jiaxing Zhang,
Abstract要約: 長期記憶はチャットボットや対話システム(DS)にとって非常に重要であり、研究者は多数のメモリ拡張DSを開発した。彼らはクエリが与えられた事実情報の正確さや生成したレスポンスの難解さだけを測定したが、それはそのパフォーマンスをほとんど反映しなかった。本研究では,認知科学と心理学理論に基づく,記憶のリコールパラダイムを網羅する新しいベンチマークを構築した。メモリベンチマーク(MemBench)は、認知科学における2句理論(メモリ検索、メモリ認識、注入)に基づく2つのタスクを含む。
参考スコア（独自算出の注目度）: 12.058391678605163
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-term memory is so important for chatbots and dialogue systems (DS) that researchers have developed numerous memory-augmented DS. However, their evaluation methods are different from the real situation in human conversation. They only measured the accuracy of factual information or the perplexity of generated responses given a query, which hardly reflected their performance. Moreover, they only consider passive memory retrieval based on similarity, neglecting diverse memory-recalling paradigms in humans, e.g. emotions and surroundings. To bridge the gap, we construct a novel benchmark covering various memory recalling paradigms based on cognitive science and psychology theory. The Memory Benchmark (MemBench) contains two tasks according to the two-phrase theory in cognitive science: memory retrieval, memory recognition and injection. The benchmark considers both passive and proactive memory recalling based on meta information for the first time. In addition, novel scoring aspects are proposed to comprehensively measure the generated responses. Results from the strongest embedding models and LLMs on MemBench show that there is plenty of room for improvement in existing dialogue systems. Extensive experiments also reveal the correlation between memory injection and emotion supporting (ES) skillfulness, and intimacy. Our code and dataset will be released.
Abstract（参考訳）: 長期記憶はチャットボットや対話システム(DS)にとって非常に重要であり、研究者は多数のメモリ拡張DSを開発した。しかし,その評価手法は,人間の会話の実際の状況と異なる。彼らはクエリが与えられた事実情報の正確さや生成したレスポンスの難解さだけを測定したが、それはそのパフォーマンスをほとんど反映しなかった。さらに、類似性に基づいた受動的メモリ検索のみを考慮し、人間、eg感情、環境における多様なメモリリコールパラダイムを無視する。このギャップを埋めるために,認知科学と心理学理論に基づく様々な記憶想起パラダイムをカバーする新しいベンチマークを構築した。メモリベンチマーク(MemBench)は、認知科学における2句理論(メモリ検索、メモリ認識、注入)に基づく2つのタスクを含む。このベンチマークでは、初めてメタ情報に基づいて、受動的メモリとプロアクティブメモリの両方をリコールする。さらに、生成した応答を包括的に測定する新しいスコアリング手法を提案する。 MemBench上での最強埋め込みモデルとLLMの結果から、既存の対話システムには改善の余地が十分にあることが分かる。大規模な実験では、記憶注射と感情支援(ES)スキルフルネスと親密さの相関も明らかにされている。コードとデータセットはリリースされます。

関連論文リスト

FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文参考訳（メタデータ） (2025-06-18T17:06:28Z)
CAIM: Development and Evaluation of a Cognitive AI Memory Framework for Long-Term Interaction with Intelligent Agents [1.6082737760346446]
大規模言語モデル(LLM)は人工知能(AI)の分野を進歩させ、インタラクティブシステムのための強力なイネーブラーとなっている。ユーザに対して適応する必要のある長期的なインタラクションや、常に変化する環境のコンテキスト的知識や理解において、依然として課題に直面しています。これらの課題を克服するためには、インタラクションセッション間で関連情報を効率的に検索し保存するために、全体論的メモリモデリングが必要である。コンピュータ化されたモデルで人間の思考プロセスをシミュレートすることを目的とした認知AIは、思考、記憶機構、意思決定といった興味深い側面を強調している。
論文参考訳（メタデータ） (2025-05-19T12:33:52Z)
From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs [34.361000444808454]
メモリは情報をエンコードし、保存し、検索するプロセスである。大規模言語モデル(LLM)の時代において、メモリとは、AIシステムが過去のインタラクションからの情報を保持し、リコールし、使用し、将来の応答とインタラクションを改善する能力である。
論文参考訳（メタデータ） (2025-04-22T15:05:04Z)
In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。 RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文参考訳（メタデータ） (2025-03-11T04:15:52Z)
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-20T08:36:58Z)
Event Segmentation Applications in Large Language Model Enabled Automated Recall Assessments [0.0]
イベントセグメンテーションは、経験を知覚し、エンコードし、リコールする方法の中心です。現在の研究手法は、セグメンテーションパターンとリコール能力を評価するために人間に大きく依存している。大規模言語モデル(LLM)を利用してイベントセグメンテーションの自動化とリコールの評価を行う。
論文参考訳（メタデータ） (2025-02-19T00:48:51Z)
On Memory Construction and Retrieval for Personalized Conversational Agents [69.46887405020186]
本稿では,セグメンテーションモデルを導入し,セグメントレベルでメモリバンクを構築するセグメンテーション手法であるSeComを提案する。実験結果から,SeComは長期会話ベンチマークLOCOMOとLong-MT-Bench+のベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2025-02-08T14:28:36Z)
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation [39.69790911626182]
強化学習領域(RL)における多数のタスクにおいて、エージェントへのメモリの取り込みが不可欠であるメモリ」という用語は幅広い概念を包含しており、エージェントのメモリを検証するための統一的な方法論が欠如していることと相まって、エージェントのメモリ能力に関する誤った判断につながる。本稿では,エージェントメモリタイプを正確に定義することで,RLにおけるメモリ概念の合理化を目指す。
論文参考訳（メタデータ） (2024-12-09T14:34:31Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Ever-Evolving Memory by Blending and Refining the Past [30.63352929849842]
CREEMは長期会話のための新しい記憶システムである。過去と現在の情報をシームレスに接続すると同時に、障害情報を忘れる能力も備えている。
論文参考訳（メタデータ） (2024-03-03T08:12:59Z)
Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term Memory [24.464945401037056]
歴史的思考を記憶するための進化した記憶を大規模言語モデルで維持できるTiM(Think-in-Memory)を提案する。我々は,多種多様な話題をカバーする実世界および模擬対話の質的,定量的な実験を行う。
論文参考訳（メタデータ） (2023-11-15T06:08:35Z)
A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文参考訳（メタデータ） (2023-10-01T08:12:55Z)
Memory-and-Anticipation Transformer for Online Action Understanding [52.24561192781971]
本稿では,過去,現在,未来を含む時間構造全体をモデル化する,メモリ予測に基づく新しいパラダイムを提案する。本稿では,メモリ・アンド・アンティフィケーション・トランスフォーマ(MAT)を提案する。
論文参考訳（メタデータ） (2023-08-15T17:34:54Z)
MemoryBank: Enhancing Large Language Models with Long-Term Memory [7.654404043517219]
本稿では,大規模言語モデルに適した新しいメモリ機構であるMemoryBankを提案する。 MemoryBankは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化し、過去のインタラクションから情報を合成することで、ユーザの個性に適応することを可能にする。
論文参考訳（メタデータ） (2023-05-17T14:40:29Z)
Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-26T07:25:31Z)
Recall, Robustness, and Lexicographic Evaluation [49.13362412522523]
正式な評価モチベーションのないリコールの適用は、リコールを曖昧または不適切な措置として批判するに至った。本研究は,リコール,ロバスト性,レキソグラフィー評価の3つのテテットから成っている。
論文参考訳（メタデータ） (2023-02-22T13:39:54Z)
Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文参考訳（メタデータ） (2022-10-24T16:32:28Z)
Learning Human Cognitive Appraisal Through Reinforcement Memory Unit [63.83306892013521]
逐次評価タスクにおける人間の認知評価の効果を生かしたリカレントニューラルネットワークのためのメモリ強調機構を提案する。記憶増強機構を2つの正および負の強化記憶とともに評価状態を含む強化記憶ユニット(RMU)として概念化する。
論文参考訳（メタデータ） (2022-08-06T08:56:55Z)
Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文参考訳（メタデータ） (2020-02-10T03:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。