論文の概要: Memory-Driven Role-Playing: Evaluation and Enhancement of Persona Knowledge Utilization in LLMs
- arxiv url: http://arxiv.org/abs/2603.19313v1
- Date: Sat, 14 Mar 2026 07:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.780289
- Title: Memory-Driven Role-Playing: Evaluation and Enhancement of Persona Knowledge Utilization in LLMs
- Title(参考訳): メモリ駆動型ロールプレイング:LLMにおけるペルソナ知識活用の評価と向上
- Authors: Kai Wang, Haoyang You, Yang Zhang, Zhongjie Wang,
- Abstract要約: メモリ駆動型ロールプレイングパラダイムを提案する。
スタニスラフスキーの「感情記憶」行動理論に触発されたこのパラダイムは、LLMの内部メモリストアとしてのペルソナの知識を基盤としている。
MREvalは4つのメモリ駆動能力を評価する詳細な評価フレームワークであり、MRPromptは構造化メモリ検索と応答生成を導くプロンプトアーキテクチャであり、MRBenchは細粒度診断のためのバイリンガルベンチマークである。
- 参考スコア(独自算出の注目度): 8.377003560888905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core challenge for faithful LLM role-playing is sustaining consistent characterization throughout long, open-ended dialogues, as models frequently fail to recall and accurately apply their designated persona knowledge without explicit cues. To tackle this, we propose the Memory-Driven Role-Playing paradigm. Inspired by Stanislavski's "emotional memory" acting theory, this paradigm frames persona knowledge as the LLM's internal memory store, requiring retrieval and application based solely on dialogue context, thereby providing a rigorous test of depth and autonomous use of knowledge. Centered on this paradigm, we contribute: (1) MREval, a fine-grained evaluation framework assessing four memory-driven abilities - Anchoring, Recalling, Bounding, and Enacting; (2) MRPrompt, a prompting architecture that guides structured memory retrieval and response generation; and (3) MRBench, a bilingual (Chinese/English) benchmark for fine-grained diagnosis. The novel paradigm provides a comprehensive diagnostic for four-staged role-playing abilities across 12 LLMs. Crucially, experiments show that MRPrompt allows small models (e.g., Qwen3-8B) to match the performance of much larger closed-source LLMs (e.g., Qwen3-Max and GLM-4.7), and confirms that upstream memory gains directly enhance downstream response quality, validating the staged theoretical foundation.
- Abstract(参考訳): 忠実なLLMロールプレイングにおける中核的な課題は、長いオープンエンド対話を通じて一貫した特徴を維持することである。
これを解決するために,メモリ駆動型ロールプレイングパラダイムを提案する。
スタニスラフスキーの「感情記憶」行動理論に触発され、このパラダイムはLLMの内部メモリストアとしてペルソナの知識を表現し、対話コンテキストのみに基づく検索と応用を必要とし、知識の深みと自律的な利用の厳密なテストを提供する。
本パラダイムを中心に,(1)メモリ駆動の4つの機能を評価する詳細な評価フレームワークであるMREval,(2)構造化メモリ検索と応答生成をガイドするプロンプトアーキテクチャであるMRPrompt,(3)バイリンガル(中国語/英語)ベンチマークであるMRBench,などが提案されている。
新たなパラダイムは、12LLMにわたる4段階のロールプレイング能力の包括的な診断を提供する。
重要な実験では、MRPromptは、非常に大きなクローズドソースLCM(例えば、Qwen3-MaxとGLM-4.7)の性能に匹敵する小さなモデル(例えば、Qwen3-8B)を許容し、上流メモリが下流の応答品質を直接向上し、ステージ理論の基礎を検証している。
関連論文リスト
- D-Mem: A Dual-Process Memory System for LLM Agents [3.5426740232689604]
本稿では,デュアルプロセスメモリシステムD-Memを紹介する。
ルーチンクエリに対する軽量なベクトル検索を維持しながら、フルリベレーションモジュールを高忠実度フォールバックとして確立している。
GPT-4o-miniとQwen3-235B-Instructを用いたLoCoMoとRealTalkのベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-19T08:55:22Z) - Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers [0.42061757959666934]
大きな言語モデル(LLM)エージェントは、単一のコンテキストウィンドウが小さすぎて何が起きているのかをキャプチャできないような環境で、ますます運用される。
メモリはステートレステキストジェネレータを真に適応的なエージェントに変える。
この調査は、メモリがどのように設計され、実装され、現代のLCMベースのエージェントで評価されるかという構造化された説明を提供する。
論文 参考訳(メタデータ) (2026-03-08T15:08:01Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - On the Structural Memory of LLM Agents [20.529239764968654]
メモリは、大規模言語モデル(LLM)ベースのエージェントが複雑で長期的な相互作用を行えるようにするための重要な役割を担っている。
本稿では,メモリ構造とメモリ検索手法がLCMエージェントの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-12-17T04:30:00Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。