Fugu-MT 論文翻訳(概要): MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants

論文の概要: MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants

arxiv url: http://arxiv.org/abs/2409.20163v1
Date: Mon, 30 Sep 2024 10:19:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-02 13:17:58.997814
Title: MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants
Title（参考訳）: MemSim: LLMに基づくパーソナルアシスタントの記憶評価のためのベイズシミュレータ
Authors: Zeyu Zhang, Quanyu Dai, Luyu Chen, Zeren Jiang, Rui Li, Jieming Zhu, Xu Chen, Yi Xie, Zhenhua Dong, Ji-Rong Wen,
Abstract要約: 生成したユーザメッセージから信頼性の高い質問や回答(QA)を自動的に構築するベイズシミュレータであるMemSimを提案する。 MemSimに基づいて、MemDailyという名前の日常生活シナリオのデータセットを生成し、我々のアプローチの有効性を評価するための広範な実験を行う。
参考スコア（独自算出の注目度）: 64.41695570145673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM-based agents have been widely applied as personal assistants, capable of memorizing information from user messages and responding to personal queries. However, there still lacks an objective and automatic evaluation on their memory capability, largely due to the challenges in constructing reliable questions and answers (QAs) according to user messages. In this paper, we propose MemSim, a Bayesian simulator designed to automatically construct reliable QAs from generated user messages, simultaneously keeping their diversity and scalability. Specifically, we introduce the Bayesian Relation Network (BRNet) and a causal generation mechanism to mitigate the impact of LLM hallucinations on factual information, facilitating the automatic creation of an evaluation dataset. Based on MemSim, we generate a dataset in the daily-life scenario, named MemDaily, and conduct extensive experiments to assess the effectiveness of our approach. We also provide a benchmark for evaluating different memory mechanisms in LLM-based agents with the MemDaily dataset. To benefit the research community, we have released our project at https://github.com/nuster1128/MemSim.
Abstract（参考訳）: LLMベースのエージェントは、ユーザメッセージからの情報を記憶し、パーソナルクエリに応答できるパーソナルアシスタントとして広く採用されている。しかし、ユーザメッセージによる信頼性の高い質問と回答(QA)を構築する上での課題から、メモリ能力に対する客観的かつ自動的な評価が依然として欠如している。本稿では,生成したユーザメッセージから信頼性の高いQAを自動構築し,その多様性とスケーラビリティを同時に維持するベイズシミュレータであるMemSimを提案する。具体的には,ベイズ関係ネットワーク(BRNet)と因果生成機構を導入し,LLM幻覚が実情報に与える影響を緩和し,評価データセットの自動作成を容易にする。 MemSimに基づいて、MemDailyという名前の日常生活シナリオのデータセットを生成し、我々のアプローチの有効性を評価するための広範な実験を行う。また,LLMをベースとしたエージェントのメモリ機構を,MemDailyデータセットを用いて評価するためのベンチマークも提供する。リサーチコミュニティに利益をもたらすため、私たちはhttps://github.com/nuster1128/MemSim.comでプロジェクトをリリースしました。

関連論文リスト

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents [26.647812147336538]
LLMをベースとしたエージェントのメモリ能力を評価するため,より包括的なデータセットとベンチマークを構築した。本データセットは,現実記憶と反射記憶を異なるレベルに含み,様々な対話的シナリオとして参加と観察を提案する。本データセットに基づいて,LLMをベースとしたエージェントのメモリ能力を評価するベンチマーク,MemBenchを提案する。
論文参考訳（メタデータ） (2025-06-20T10:09:23Z)
StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-16T10:54:31Z)
Counterfactual Simulatability of LLM Explanations for Generation Tasks [15.969128610152586]
モデルがそれらの振る舞いを正確に説明できる能力は、特にハイテイクな設定で重要である。因果的シミュラビリティ(英: Counterfactual simulatability)とは、ユーザが関連する反事実に対してモデルの出力を推測できる説明法である。本研究の結果から, 知識に基づくタスクよりも, スキルベースのタスクの方が, 対実的シミュラビリティの評価に適している可能性が示唆された。
論文参考訳（メタデータ） (2025-05-27T20:29:50Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
MemInsight: Autonomous Memory Augmentation for LLM Agents [12.620141762922168]
セマンティックなデータ表現と検索機構を強化するために,自動メモリ拡張手法であるMemInsightを提案する。提案手法の有効性を,会話推薦,質問応答,イベント要約の3つのシナリオで実証的に検証した。
論文参考訳（メタデータ） (2025-03-27T17:57:28Z)
SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文参考訳（メタデータ） (2024-09-11T21:53:20Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文参考訳（メタデータ） (2024-06-11T14:02:23Z)
Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
論文参考訳（メタデータ） (2024-05-08T00:45:20Z)
How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。そこで我々はSimpleUserSimを提案する。
論文参考訳（メタデータ） (2024-03-25T04:21:06Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
AgentSims: An Open-Source Sandbox for Large Language Model Evaluation [9.156652770482268]
既存の評価手法は,(1)制約付き評価能力,(2)脆弱なベンチマーク,(3)客観的な指標などの欠点に悩まされている。 LLMエージェントがシミュレーション環境でタスクを完了させるタスクベース評価は、上記の問題を解決するための一対一のソリューションである。 AgentSimsは、あらゆる分野の研究者が興味のある特定の能力をテストするための、使いやすいインフラだ。
論文参考訳（メタデータ） (2023-08-08T03:59:28Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。