論文の概要: Can LLMs Generate Good Stories? Insights and Challenges from a Narrative Planning Perspective
- arxiv url: http://arxiv.org/abs/2506.10161v1
- Date: Wed, 11 Jun 2025 20:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.44341
- Title: Can LLMs Generate Good Stories? Insights and Challenges from a Narrative Planning Perspective
- Title(参考訳): LLMは良いストーリーを創出できるか? : ナラティブプランニングの視点からの展望と課題
- Authors: Yi Wang, Max Kreminski,
- Abstract要約: 本稿では,文献事例に基づく物語計画におけるLarge Language Models (LLMs) の評価ベンチマークを提案する。
実験の結果, GPT-4 層 LLM は小さなスケールで因果音を発生させることができるが, キャラクタの意図と劇的な対立を伴う計画は依然として困難である。
- 参考スコア(独自算出の注目度): 5.164206868073554
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Story generation has been a prominent application of Large Language Models (LLMs). However, understanding LLMs' ability to produce high-quality stories remains limited due to challenges in automatic evaluation methods and the high cost and subjectivity of manual evaluation. Computational narratology offers valuable insights into what constitutes a good story, which has been applied in the symbolic narrative planning approach to story generation. This work aims to deepen the understanding of LLMs' story generation capabilities by using them to solve narrative planning problems. We present a benchmark for evaluating LLMs on narrative planning based on literature examples, focusing on causal soundness, character intentionality, and dramatic conflict. Our experiments show that GPT-4 tier LLMs can generate causally sound stories at small scales, but planning with character intentionality and dramatic conflict remains challenging, requiring LLMs trained with reinforcement learning for complex reasoning. The results offer insights on the scale of stories that LLMs can generate while maintaining quality from different aspects. Our findings also highlight interesting problem solving behaviors and shed lights on challenges and considerations for applying LLM narrative planning in game environments.
- Abstract(参考訳): ストーリー生成は、LLM(Large Language Models)の顕著な応用である。
しかし, 自動評価手法の課題や手動評価の高コスト・主観性などにより, LLMの高品質なストーリー作成能力の理解は依然として限られている。
計算ナラトロジー(英: Computational narratology)は、優れた物語を構成するものに関する貴重な洞察を提供する。
本研究の目的は,LLMのストーリー生成能力の理解を深めることである。
本稿では,文学的事例に基づく物語計画におけるLCMの評価基準について,因果的健全性,性格意図性,劇的矛盾に着目した。
実験の結果, GPT-4 層 LLM は小さなスケールで因果音を発生させることができたが, 性格意図と劇的な対立を伴う計画は依然として困難であり, 複雑な推論のために強化学習で訓練された LLM を必要とする。
結果は、LLMが異なる側面から品質を維持しながら生成できるストーリーの規模に関する洞察を提供する。
また,ゲーム環境にLLMの物語計画を適用する上での課題や考慮事項について,興味深い問題解決行動と光を当てた。
関連論文リスト
- Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection [35.550137361809405]
ストーリーにおけるプロットホール検出は、大規模言語モデルにおける言語理解と推論を評価するためのプロキシである。
FlawedFictionsMakerは人書きストーリーのプロットホールを制御し、慎重に合成する新しいアルゴリズムである。
現状のLLMは、理屈によらず、FlawedFictionsを正確に解くのに苦労している。
論文 参考訳(メタデータ) (2025-04-16T09:25:54Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Multiverse of Greatness: Generating Story Branches with LLMs [0.6283043694426244]
本稿では,動的コンテキストウィンドウ履歴を持つグラフベースのコンテンツを生成するための LLM と対話する新しいフレームワークである Dynamic Context Prompting/Programming (DCP/P) を提案する。
LLMにコンテキスト履歴を提供しず,初期ストーリデータのみに依存するDCP/Pをベースラインに対して評価する。
我々は,それぞれのアプローチから,客観的に最高のパフォーマンスを得られるゲームの品質を質的に検討する。
論文 参考訳(メタデータ) (2024-11-22T02:11:37Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。