論文の概要: Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling
- arxiv url: http://arxiv.org/abs/2604.09854v1
- Date: Fri, 10 Apr 2026 19:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.711574
- Title: Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling
- Title(参考訳): スポイラーアラート: LLMストーリーテリングにおけるテンションの指標としての物語予測
- Authors: Peiqi Sui, Yutong Zhu, Tianyi Cheng, Peter West, Richard Jean So, Hoyt Long, Ari Holtzman,
- Abstract要約: 我々は、既存のルーブリックは説得力のある人間の物語の重要な次元である物語の緊張を見落としていると論じる。
本稿では,100-Endingsメートル法について紹介する。
ルーリックベースの審査員とは異なり、100-EndingsはニューヨーカーのストーリーをLSMのアウトプットよりはるかに上位にランク付けしている。
- 参考スコア(独自算出の注目度): 15.25806708314033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have so far failed both to generate consistently compelling stories and to recognize this failure--on the leading creative-writing benchmark (EQ-Bench), LLM judges rank zero-shot AI stories above New Yorker short stories, a gold standard for literary fiction. We argue that existing rubrics overlook a key dimension of compelling human stories: narrative tension. We introduce the 100-Endings metric, which walks through a story sentence by sentence: at each position, a model predicts how the story will end 100 times given only the text so far, and we measure tension as how often predictions fail to match the ground truth. Beyond the mismatch rate, the sentence-level curve yields complementary statistics, such as inflection rate, a geometric measure of how frequently the curve reverses direction, tracking twists and revelations. Unlike rubric-based judges, 100-Endings correctly ranks New Yorker stories far above LLM outputs. Grounded in narratological principles, we design a story-generation pipeline using structural constraints, including analysis of story templates, idea formulation, and narrative scaffolding. Our pipeline significantly increases narrative tension as measured by the 100-Endings metric, while maintaining performance on the EQ-Bench leaderboard.
- Abstract(参考訳): LLMは、一貫して魅力的なストーリーを生成し、この失敗を認識するのに失敗している。主要なクリエイティブ・ライティング・ベンチマーク(EQ-Bench)において、LLMは、小説のゴールドスタンダードであるニューヨーク・ショートストーリーの上位にゼロショットAIストーリーをランク付けしている。
我々は、既存のルーブリックは説得力のある人間の物語の重要な次元である物語の緊張を見落としていると論じる。
本稿では,100-Endingsメートル法について述べる。各位置において,これまでテキストのみに与えられた100回のストーリー終了をモデルが予測し,その予測が真実に一致しない頻度としてテンションを計測する。
ミスマッチ率の他に、文レベルの曲線は、傾き率、曲線がどれだけの頻度で方向を逆転するかの幾何的測度、ねじれや解答などの相補的な統計が得られる。
ルーリックベースの審査員とは異なり、100-EndingsはニューヨーカーのストーリーをLSMのアウトプットよりはるかに上位にランク付けしている。
ナラトロジーの原則を基礎として,物語テンプレートの分析,アイデアの定式化,物語の足場化など,構造的制約を用いた物語生成パイプラインを設計する。
パイプラインは,EQ-Benchリーダーボードの性能を維持しながら,100-Endings測定値で測定したナラティブテンションを著しく向上させる。
関連論文リスト
- Lost in Stories: Consistency Bugs in Long Story Generation by LLMs [21.241285394393632]
ConStory-Benchは、長めのストーリー生成における物語の一貫性を評価するために設計されたベンチマークである。
4つのタスクシナリオに2,000のプロンプトが含まれ、19のきめ細かいサブタイプを持つ5つのエラーカテゴリの分類を定義する。
また,矛盾を検出する自動パイプラインであるConStory-Checkerを開発した。
論文 参考訳(メタデータ) (2026-03-06T04:16:46Z) - NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models [8.6767620170781]
ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。
多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。
我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
論文 参考訳(メタデータ) (2025-11-09T17:41:11Z) - Modeling Fair Play in Detective Stories with Language Models [14.90042250991032]
本論では,刑事小説に望ましい品質を定義するための確率的枠組みを提案する。
LLM生成した推理小説に適用し,その枠組みを検証した。
結果は、LCM生成したストーリーは予測できないかもしれないが、概してサプライズとフェアプレイのトレードオフのバランスが取れないことを示している。
論文 参考訳(メタデータ) (2025-07-18T11:55:18Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - LongStory: Coherent, Complete and Length Controlled Long story Generation [16.804434185847363]
本稿では,コヒーレント,完全,長大なストーリー生成のためのLongStoryを提案する。
LongStoryは,(1)長期・短期の重み調整器(CWC)と(2)長期ストーリー構造位置(LSP)の2つの新しい手法を導入した。
論文 参考訳(メタデータ) (2023-11-26T06:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。