論文の概要: NARRA-Gym for Evaluating Interactive Narrative Agents
- arxiv url: http://arxiv.org/abs/2605.08503v1
- Date: Fri, 08 May 2026 21:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.69051
- Title: NARRA-Gym for Evaluating Interactive Narrative Agents
- Title(参考訳): 対話型ナラティブエージェント評価のためのNARRA-Gym
- Authors: Yue Huang, Yuchen Ma, Jiayi Ye, Wenjie Wang, Zipeng Ling, Xingjian Hu, Yuexing Hao, Zichen Chen, Zhangchen Xu, Yunhong He, Zhengqing Yuan, Yujun Zhou, Kehan Guo, Chaoran Chen, Toby Jia-Jun Li, Stefan Feuerriegel, Xiangliang Zhang,
- Abstract要約: NARRA-Gymは,まばらな感情的シードを完全なインタラクティブな物語のエピソードに変換する評価環境である。
我々は,8つのベンチマークペルソナに対して制御されたLLM-as-judgeスイープと,参加者がカスタマイズされたモデル出力を評価できる人的評価を用いて,9つのフロンティアLLMを評価する。
- 参考スコア(独自算出の注目度): 69.49891044929372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive narrative tasks require LLMs to sustain a coherent, evolving story while adapting to a user over multiple turns. However, suitable benchmarks for this setting are limited: existing evaluations often focus on static prompts, isolated story generations, or post-hoc ratings, and therefore miss whether models can jointly manage story generation, long-context state and pacing, character simulation, empathic personalization, and story-grounded artifacts. We introduce NARRA-Gym, an executable evaluation environment that turns a sparse emotional seed into a complete interactive story episode and logs the full model-in-the-loop trajectory, including story construction, memory updates, planning, pacing interventions, and optional artifact synthesis. We evaluate nine frontier LLMs using a controlled LLM-as-judge sweep over eight benchmark personas and a human evaluation in which participants rate customized model outputs. Our results show substantial variation across models, personas, and evaluation dimensions: models that produce fluent stories can still fail on robustness, user experience, or resistance-sensitive personalization. These findings suggest that interactive narrative offers a useful benchmark for evaluating long-horizon, user-adaptive LLM behavior beyond isolated story quality.
- Abstract(参考訳): 対話的なストーリータスクでは、複数のターンにまたがってユーザを適応させながら、一貫性のある進化するストーリーを維持する必要がある。
しかし、この設定に適したベンチマークは限られており、既存の評価は静的なプロンプト、孤立したストーリー世代、あるいはポストホックな評価に重点を置いているため、モデルがストーリー生成、長期コンテキストの状態とペーシング、キャラクターシミュレーション、共感的パーソナライゼーション、ストーリーグラウンドのアーティファクトを共同で管理できるかどうかを見逃している。
NARRA-Gymは,スパークな感情的なシードを完全なインタラクティブな物語のエピソードに変換し,ストーリー構築,メモリ更新,計画,ペーシング介入,オプションのアーティファクト合成を含む,ループ内の完全なモデルトラジェクトリをログする実行可能な評価環境である。
我々は,8つのベンチマークペルソナに対して制御されたLLM-as-judgeスイープと,参加者がカスタマイズされたモデル出力を評価できる人的評価を用いて,9つのフロンティアLLMを評価する。
モデル, ペルソナ, 評価次元の相違点として, 流動的なストーリを生成するモデルは, 堅牢性, ユーザエクスペリエンス, 抵抗性に敏感なパーソナライゼーションにおいて依然として失敗する可能性がある。
これらの結果から,対話型ナラティブは,孤立したストーリー品質を超えた長期的ユーザ適応型LCM行動を評価する上で有用な指標であることが示唆された。
関連論文リスト
- AlignUSER: Human-Aligned LLM Agents via World Models for Recommender System Evaluation [0.7031557790463293]
人間のインタラクションから世界モデル駆動エージェントを学習するフレームワークであるAlignを紹介する。
実証に関する反事実的軌跡を生成し, LLMに人間の選択と判断を比較し, 準最適行動を特定し, 教訓を抽出するよう促す。
論文 参考訳(メタデータ) (2026-01-02T03:01:33Z) - Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文 参考訳(メタデータ) (2025-11-12T06:06:29Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [133.0641538589466]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios [31.43638572775755]
HammerBenchは、実世界のマルチターン対話におけるモバイルアシスタント機能呼び出し機能を評価するための新しいフレームワークである。
実験の結果、異なるタイプのパラメータ名エラーが、異なる相互作用シナリオにおける重大な障害の原因であることを明らかにした。
論文 参考訳(メタデータ) (2024-12-21T07:33:55Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。