論文の概要: StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns
- arxiv url: http://arxiv.org/abs/2506.13356v1
- Date: Mon, 16 Jun 2025 10:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.202225
- Title: StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns
- Title(参考訳): StoryBench:マルチターンによる長期メモリ評価のための動的ベンチマーク
- Authors: Luanbo Wan, Weizhi Ma,
- Abstract要約: 長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.60350050736492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term memory (LTM) is essential for large language models (LLMs) to achieve autonomous intelligence in complex, evolving environments. Despite increasing efforts in memory-augmented and retrieval-based architectures, there remains a lack of standardized benchmarks to systematically evaluate LLMs' long-term memory abilities. Existing benchmarks still face challenges in evaluating knowledge retention and dynamic sequential reasoning, and in their own flexibility, all of which limit their effectiveness in assessing models' LTM capabilities. To address these gaps, we propose a novel benchmark framework based on interactive fiction games, featuring dynamically branching storylines with complex reasoning structures. These structures simulate real-world scenarios by requiring LLMs to navigate hierarchical decision trees, where each choice triggers cascading dependencies across multi-turn interactions. Our benchmark emphasizes two distinct settings to test reasoning complexity: one with immediate feedback upon incorrect decisions, and the other requiring models to independently trace back and revise earlier choices after failure. As part of this benchmark, we also construct a new dataset designed to test LLMs' LTM within narrative-driven environments. We further validate the effectiveness of our approach through detailed experiments. Experimental results demonstrate the benchmark's ability to robustly and reliably assess LTM in LLMs.
- Abstract(参考訳): 長期記憶(LTM)は、複雑な進化環境において自律的な知性を達成するために、大規模言語モデル(LLM)にとって不可欠である。
メモリ拡張と検索に基づくアーキテクチャへの取り組みは増えているが、LLMの長期記憶能力を体系的に評価する標準ベンチマークはいまだに存在しない。
既存のベンチマークは、知識保持と動的シーケンシャル推論の評価において依然として課題に直面しており、その柔軟性はモデルのLTM能力を評価する上での有効性を制限している。
これらのギャップに対処するため,インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案し,複雑な推論構造を持つ動的分岐ストーリーラインを特徴とする。
これらの構造は、LLMが階層的な決定木をナビゲートする必要があることで現実のシナリオをシミュレートする。
私たちのベンチマークでは、推論の複雑さをテストするための2つの異なる設定を強調しています。
このベンチマークの一環として、物語駆動環境下でLLMのLTMをテストするために設計された新しいデータセットを構築した。
より詳細な実験により,本手法の有効性を検証した。
実験の結果,LLMにおけるLTMの堅牢かつ確実な評価が可能であった。
関連論文リスト
- LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。
NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。
データポイントを毎月更新する動的更新メカニズムで設計されている。
論文 参考訳(メタデータ) (2023-12-22T18:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。