論文の概要: StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall
- arxiv url: http://arxiv.org/abs/2604.26243v1
- Date: Wed, 29 Apr 2026 02:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.232949
- Title: StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall
- Title(参考訳): StratMem-Bench: 仮想文字会話における仮想リコール以外のストラテジックメモリ使用の評価
- Authors: Yerong Wu, Tianxing Wu, Minghao Zhu, Hangyu Sha, Haofen Wang,
- Abstract要約: StratMem-Benchは、文字中心の対話における戦略的メモリ使用量を評価するための新しいベンチマークである。
このデータセットは657インスタンスで構成されており、仮想キャラクタは異種メモリプールをナビゲートする必要がある。
- 参考スコア(独自算出の注目度): 11.978501031062159
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Achieving realistic human-like conversation for virtual characters requires not only a simple memorization and recall of past events, but also the strategic utilization of memory to meet factual needs and social engagement. Current memory utilization relevant (e.g., memory-augmented generation, long-term dialogue, and etc.) benchmarks overlook this nuance, treating memory primarily as a static repository of facts rather than a dynamic resource to be strategically deployed in dialogues. To address this gap, we design StratMem-Bench, a new benchmark to evaluate strategic memory use in character-centric dialogues. This dataset comprises 657 instances where virtual characters must navigate heterogeneous memory pools containing required, supportive, and irrelevant memories. We also propose a framework with different evaluation metrics including Strict Memory Compliance, Memory Integration Quality, Proactive Enrichment Score and Conditional Irrelevance Rate, to evaluate strategic memory use capabilities of virtual characters. Experiments on StratMem-Bench which leverage the state-of-the-art large language models as virtual characters show that all models perform well at distinguishing between required and irrelevant memories, but struggle once supportive memories are introduced into the decision process.
- Abstract(参考訳): 仮想キャラクタのための現実的な人間的な会話を実現するには、過去の出来事を記憶し思い出させるだけでなく、現実的なニーズや社会的エンゲージメントを満たすための記憶の戦略的利用も必要である。
現在のメモリ利用(例えば、メモリ拡張世代、長期対話など)のベンチマークは、このニュアンスを見落とし、メモリをダイアログに戦略的にデプロイされる動的リソースではなく、主に事実の静的リポジトリとして扱う。
このギャップに対処するため,文字中心の対話における戦略的メモリ使用量を評価するための新しいベンチマークであるStratMem-Benchを設計した。
このデータセットは657のインスタンスから構成されており、仮想キャラクタは必要、サポート、無関係なメモリを含む異種メモリプールをナビゲートする必要がある。
また,仮想キャラクタの戦略的メモリ利用能力を評価するために,Strict Memory Compliance, Memory Integration Quality, Proactive Enrichment Score, Conditional Irrelevance Rateなど,さまざまな評価指標を持つフレームワークを提案する。
最先端の大規模言語モデルを仮想キャラクタとして活用したStratMem-Benchの実験では、すべてのモデルが要求された記憶と無関係な記憶の区別に優れていたが、一度支援的な記憶が決定プロセスに導入されると苦労する。
関連論文リスト
- LMEB: Long-horizon Memory Embedding Benchmark [49.57481835614834]
埋め込みモデルの能力を評価する包括的なフレームワークであるLong-Horizon Memory Embedding Benchmark (LMEB)を紹介する。
LMEBは4つのメモリタイプにまたがる22のデータセットと193のゼロショット検索タスクにまたがる。
我々は、数億から100億のパラメータを含む、広く使われている15の埋め込みモデルを評価した。
論文 参考訳(メタデータ) (2026-03-13T02:09:57Z) - RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。
Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。
既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2026-03-01T18:59:59Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Graph-based Agent Memory: Taxonomy, Techniques, and Applications [63.70340159016138]
メモリはLarge Language Model(LLM)ベースのエージェントの中核モジュールとして出現する。
さまざまなパラダイムの中でグラフは、関係依存をモデル化する本質的な能力のため、エージェントメモリの強力な構造として際立っている。
本調査では, エージェントメモリの総合的な検討について, グラフベースの観点から述べる。
論文 参考訳(メタデータ) (2026-02-05T13:49:05Z) - Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity [26.512226057571947]
Memoraは、抽象性と特異性の構造的バランスをとるハーモニックメモリ表現である。
本稿では,LoCoMoベンチマークとLongMemEvalベンチマークでMemoraが新たな最先端性を確立し,メモリスケールとしての検索妥当性と推論の有効性を示す。
論文 参考訳(メタデータ) (2026-02-03T09:44:43Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Multiple Memory Systems for Enhancing the Long-term Memory of Agent [9.43633399280987]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z) - MemoCue: Empowering LLM-Based Agents for Human Memory Recall via Strategy-Guided Querying [12.524353050278105]
戦略誘導型エージェント支援メモリリコール手法を提案し,エージェントが元のクエリをキューリッチなクエリに変換する。
メモリクエリを5つの典型的なシナリオに分類する5Wリコールマップを設計する。
次に,モンテカルロ木探索アルゴリズムと組み合わせた階層的リコールツリーを提案し,戦略選択と戦略応答の生成を最適化する。
論文 参考訳(メタデータ) (2025-07-31T15:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。