論文の概要: MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation
- arxiv url: http://arxiv.org/abs/2409.15240v2
- Date: Wed, 23 Oct 2024 17:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:27:58.637105
- Title: MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation
- Title(参考訳): MADial-Bench: メモリ拡張対話生成の実環境評価に向けて
- Authors: Junqing He, Liang Zhu, Rui Wang, Xi Wang, Reza Haffari, Jiaxing Zhang,
- Abstract要約: メモリ拡張対話システム(MADS)の有効性を評価するための新しいメモリ拡張対話ベンチマーク(MADail-Bench)を提案する。
このベンチマークは2つのタスクを別々に評価する: メモリ検索とメモリ認識は、パッシブとプロアクティブの両方のメモリリコールデータを組み込んだものである。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示している。
- 参考スコア(独自算出の注目度): 15.64077949677469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term memory is important for chatbots and dialogue systems (DS) to create consistent and human-like conversations, evidenced by numerous developed memory-augmented DS (MADS). To evaluate the effectiveness of such MADS, existing commonly used evaluation metrics, like retrieval accuracy and perplexity (PPL), mainly focus on query-oriented factualness and language quality assessment. However, these metrics often lack practical value. Moreover, the evaluation dimensions are insufficient for human-like assessment in DS. Regarding memory-recalling paradigms, current evaluation schemes only consider passive memory retrieval while ignoring diverse memory recall with rich triggering factors, e.g., emotions and surroundings, which can be essential in emotional support scenarios. To bridge the gap, we construct a novel Memory-Augmented Dialogue Benchmark (MADail-Bench) covering various memory-recalling paradigms based on cognitive science and psychology theories. The benchmark assesses two tasks separately: memory retrieval and memory recognition with the incorporation of both passive and proactive memory recall data. We introduce new scoring criteria to the evaluation, including memory injection, emotion support (ES) proficiency, and intimacy, to comprehensively assess generated responses. Results from cutting-edge embedding models and large language models on this benchmark indicate the potential for further advancement. Extensive testing further reveals correlations between memory injection, ES proficiency, and intimacy.
- Abstract(参考訳): チャットボットや対話システム(DS)にとって長期記憶は、多数の発達したメモリ拡張DS(MADS)によって実証された、一貫性のある人間的な会話を生成するために重要である。
このようなMADSの有効性を評価するため、検索精度やパープレキシティ(PPL)などの既存の評価指標は、主にクエリ指向の事実性や言語品質の評価に重点を置いている。
しかし、これらの指標は実際的な価値を欠くことが多い。
また,DSの人間的評価には評価寸法が不十分である。
メモリリコールのパラダイムに関しては、現在の評価スキームは受動的メモリ検索のみを考慮しつつ、多様なメモリリコールを、感情や環境といったリッチなトリガ要因で無視する。
このギャップを埋めるために,認知科学と心理学理論に基づく様々なメモリリコールパラダイムをカバーする新しいメモリ拡張ダイアログベンチマーク(MADail-Bench)を構築した。
このベンチマークは2つのタスクを別々に評価する: メモリ検索とメモリ認識は、パッシブとプロアクティブの両方のメモリリコールデータを組み込んだものである。
本稿では, 記憶注入, 感情支援(ES)能力, 親密性などの評価基準を新たに導入し, 生成した反応を包括的に評価する。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示している。
広範囲なテストにより、メモリインジェクション、ES習熟度、親密さの相関が明らかになる。
関連論文リスト
- Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。
効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-20T08:36:58Z) - Event Segmentation Applications in Large Language Model Enabled Automated Recall Assessments [0.0]
イベントセグメンテーションは、経験を知覚し、エンコードし、リコールする方法の中心です。
現在の研究手法は、セグメンテーションパターンとリコール能力を評価するために人間に大きく依存している。
大規模言語モデル(LLM)を利用してイベントセグメンテーションの自動化とリコールの評価を行う。
論文 参考訳(メタデータ) (2025-02-19T00:48:51Z) - On Memory Construction and Retrieval for Personalized Conversational Agents [69.46887405020186]
本稿では,対話モデルを導入し,圧縮メモリ単位に基づいたメモリ検索を行い,話題セグメントを持つメモリバンクを構築するSeComを提案する。
実験結果から, LOCOMOやLong-MT-Bench+のような長期会話ベンチマークにおいて, ターンレベル, セッションレベル, および要約に基づくいくつかの手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2025-02-08T14:28:36Z) - Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation [39.69790911626182]
強化学習領域(RL)における多数のタスクにおいて、エージェントへのメモリの取り込みが不可欠である
メモリ」という用語は幅広い概念を包含しており、エージェントのメモリを検証するための統一的な方法論が欠如していることと相まって、エージェントのメモリ能力に関する誤った判断につながる。
本稿では,エージェントメモリタイプを正確に定義することで,RLにおけるメモリ概念の合理化を目指す。
論文 参考訳(メタデータ) (2024-12-09T14:34:31Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Ever-Evolving Memory by Blending and Refining the Past [30.63352929849842]
CREEMは長期会話のための新しい記憶システムである。
過去と現在の情報をシームレスに接続すると同時に、障害情報を忘れる能力も備えている。
論文 参考訳(メタデータ) (2024-03-03T08:12:59Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - MemoryBank: Enhancing Large Language Models with Long-Term Memory [7.654404043517219]
本稿では,大規模言語モデルに適した新しいメモリ機構であるMemoryBankを提案する。
MemoryBankは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化し、過去のインタラクションから情報を合成することで、ユーザの個性に適応することを可能にする。
論文 参考訳(メタデータ) (2023-05-17T14:40:29Z) - Recall, Robustness, and Lexicographic Evaluation [49.13362412522523]
正式な評価モチベーションのないリコールの適用は、リコールを曖昧または不適切な措置として批判するに至った。
本研究は,リコール,ロバスト性,レキソグラフィー評価の3つのテテットから成っている。
論文 参考訳(メタデータ) (2023-02-22T13:39:54Z) - Learning Human Cognitive Appraisal Through Reinforcement Memory Unit [63.83306892013521]
逐次評価タスクにおける人間の認知評価の効果を生かしたリカレントニューラルネットワークのためのメモリ強調機構を提案する。
記憶増強機構を2つの正および負の強化記憶とともに評価状態を含む強化記憶ユニット(RMU)として概念化する。
論文 参考訳(メタデータ) (2022-08-06T08:56:55Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。