論文の概要: Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
- arxiv url: http://arxiv.org/abs/2603.05890v1
- Date: Fri, 06 Mar 2026 04:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.078593
- Title: Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
- Title(参考訳): 物語に負ける - LLMによる長編物語生成における一貫性のバグ
- Authors: Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie,
- Abstract要約: ConStory-Benchは、長めのストーリー生成における物語の一貫性を評価するために設計されたベンチマークである。
4つのタスクシナリオに2,000のプロンプトが含まれ、19のきめ細かいサブタイプを持つ5つのエラーカテゴリの分類を定義する。
また,矛盾を検出する自動パイプラインであるConStory-Checkerを開発した。
- 参考スコア(独自算出の注目度): 21.241285394393632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.
- Abstract(参考訳): ストーリーテラーが自分のストーリーを忘れたらどうなるのか?
大きな言語モデル(LLM)は、数万の単語にまたがる物語を生成することができるが、一貫性の維持に失敗することが多い。
長文の物語を生成する際、これらのモデルは、確立した事実、性格的特徴、世界ルールと矛盾する可能性がある。
既存のストーリー生成ベンチマークは、主にプロットの品質とフラレンシに重点を置いており、一貫性のエラーはほとんど探索されていない。
このギャップに対処するために,長大なストーリー生成における物語の一貫性を評価するためのベンチマークであるConStory-Benchを提案する。
4つのタスクシナリオに2,000のプロンプトが含まれ、19のきめ細かいサブタイプを持つ5つのエラーカテゴリの分類を定義する。
また,矛盾を検出する自動パイプラインであるConStory-Checkerを開発した。
整合性エラーは事実的・時間的次元において最も一般的であり、物語の中央に現れる傾向があり、トークンレベルのエントロピーが高いテキストセグメントで発生する傾向があり、特定のエラータイプが共起する傾向にある。
これらの知見は,長文物語生成における一貫性向上に向けた今後の取り組みを示唆するものである。
私たちのプロジェクトページはhttps://picrew.github.io/constory-bench.github.io/で公開されています。
関連論文リスト
- NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models [8.6767620170781]
ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。
多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。
我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
論文 参考訳(メタデータ) (2025-11-09T17:41:11Z) - STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives [82.19488717416351]
本稿では,高品質でマルチシーンなストーリーフレームを生成するための統合フレームワークであるStoryAnchorsを紹介する。
StoryAnchorsは、時間的一貫性を確保するために、過去と将来の両方のコンテキストを統合する双方向のストーリージェネレータを使用している。
また、マルチイベントストーリーフレームラベリングとプログレッシブストーリーフレームトレーニングを統合し、モデルが包括的な物語の流れとイベントレベルのダイナミクスの両方をキャプチャできるようにする。
論文 参考訳(メタデータ) (2025-05-13T08:48:10Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Computational Lens on Cognition: Study Of Autobiographical Versus
Imagined Stories With Large-Scale Language Models [95.88620740809004]
GPT-3を用いた自伝的物語と想像的物語における出来事の物語の流れの相違について検討した。
想像された物語は自伝的物語よりも逐次性が高いことがわかった。
想像された物語と比較すると、自伝的な物語は、最初の人物に関連するより具体的な言葉と単語を含んでいる。
論文 参考訳(メタデータ) (2022-01-07T20:10:47Z) - Inferring the Reader: Guiding Automated Story Generation with
Commonsense Reasoning [12.264880519328353]
生成プロセスにコモンセンス推論を導入するフレームワークであるCommonsense-inference Augmented Neural StoryTelling (CAST)を紹介する。
我々のCAST手法は,既存のモデルよりも,一文字と二文字の両方で,一貫性があり,オントピー的,楽しむことができる。
論文 参考訳(メタデータ) (2021-05-04T06:40:33Z) - Consistency and Coherency Enhanced Story Generation [35.08911595854691]
生成したストーリーの一貫性と一貫性を高めるための2段階生成フレームワークを提案する。
第1段は物語の筋書きや出来事を描いた物語の輪郭を整理し、第2段は完全な物語へと輪郭を広げることである。
さらに、コア参照監視信号は、コア参照エラーを低減し、コア参照一貫性を向上させるために組み込まれている。
論文 参考訳(メタデータ) (2020-10-17T16:40:37Z) - UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation [92.42032403795879]
UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。
人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
論文 参考訳(メタデータ) (2020-09-16T11:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。