論文の概要: Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection
- arxiv url: http://arxiv.org/abs/2504.11900v1
- Date: Wed, 16 Apr 2025 09:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:04.164398
- Title: Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection
- Title(参考訳): 欠陥の発見:プロットホール検出による言語モデルにおける複雑な推論の評価
- Authors: Kabir Ahuja, Melanie Sclar, Yulia Tsvetkov,
- Abstract要約: ストーリーにおけるプロットホール検出は、大規模言語モデルにおける言語理解と推論を評価するためのプロキシである。
FlawedFictionsMakerは人書きストーリーのプロットホールを制御し、慎重に合成する新しいアルゴリズムである。
現状のLLMは、理屈によらず、FlawedFictionsを正確に解くのに苦労している。
- 参考スコア(独自算出の注目度): 35.550137361809405
- License:
- Abstract: Stories are a fundamental aspect of human experience. Engaging deeply with stories and spotting plot holes -- inconsistencies in a storyline that break the internal logic or rules of a story's world -- requires nuanced reasoning skills, including tracking entities and events and their interplay, abstract thinking, pragmatic narrative understanding, commonsense and social reasoning, and theory of mind. As Large Language Models (LLMs) increasingly generate, interpret, and modify text, rigorously assessing their narrative consistency and deeper language understanding becomes critical. However, existing benchmarks focus mainly on surface-level comprehension. In this work, we propose plot hole detection in stories as a proxy to evaluate language understanding and reasoning in LLMs. We introduce FlawedFictionsMaker, a novel algorithm to controllably and carefully synthesize plot holes in human-written stories. Using this algorithm, we construct a benchmark to evaluate LLMs' plot hole detection abilities in stories -- FlawedFictions -- , which is robust to contamination, with human filtering ensuring high quality. We find that state-of-the-art LLMs struggle in accurately solving FlawedFictions regardless of the reasoning effort allowed, with performance significantly degrading as story length increases. Finally, we show that LLM-based story summarization and story generation are prone to introducing plot holes, with more than 50% and 100% increases in plot hole detection rates with respect to human-written originals.
- Abstract(参考訳): ストーリーは人間の経験の基本的な側面である。
ストーリーやストーリーの世界の内部論理や規則を破るストーリーラインの不整合(英語版)やプロットホール(英語版)を深く掘り下げるには、エンティティやイベント、それらの相互作用、抽象的思考、実践的な物語理解、常識と社会的推論、心の理論など、微妙な推論スキルが必要である。
大きな言語モデル(LLM)がテキストを生成し、解釈し、修正するにつれて、物語の一貫性とより深い言語理解の厳密な評価が重要になる。
しかし、既存のベンチマークは主に表面レベルの理解に焦点を当てている。
本研究では,LLMにおける言語理解と推論を評価するプロキシとして,物語のプロットホール検出を提案する。
FlawedFictionsMakerは人書きストーリーのプロットホールを制御し、慎重に合成する新しいアルゴリズムである。
このアルゴリズムを用いて,LLMのプロットホール検出能力(FlawedFictions)を評価するベンチマークを構築した。
現状のLLMは、ストーリーの長さが大きくなるにつれて性能が著しく低下し、理屈によらず、FlawedFictionsを正確に解くのに苦労している。
最後に, LLMをベースとしたストーリー要約とストーリー生成は, プロットホールの出現率を50%以上, 100%以上増加させる傾向にあることを示す。
関連論文リスト
- MLD-EA: Check and Complete Narrative Coherence by Introducing Emotions and Actions [8.06073345741722]
感情・行動(MLD-EA)モデルを用いたミス・ロジック・ディテクタを提案する。
物語のギャップを識別し、物語の感情的・論理的流れとシームレスに統合する一貫性のある文を生成する。
この研究はNLP研究のギャップを埋め、より洗練され信頼性の高いストーリージェネレーションシステムを構築するという境界目標を前進させる。
論文 参考訳(メタデータ) (2024-12-03T23:01:21Z) - Agents' Room: Narrative Generation through Multi-step Collaboration [54.98886593802834]
本稿では,物語の執筆を特殊エージェントが取り組んだサブタスクに分解する,物語理論に触発された世代フレームワークを提案する。
エージェントの部屋は,専門的評価者が好むストーリーをベースラインシステムより生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T15:44:42Z) - Assessing Language Models' Worldview for Fiction Generation [0.0]
本研究では,大言語モデルがフィクションの創出に不可欠な世界を維持する能力について考察する。
2つのモデルだけが一貫した世界観を示しており、残りは自己複製である。
このモデル間の統一性は、フィクションに必要な国家の欠如をさらに示唆している。
論文 参考訳(メタデータ) (2024-08-15T03:19:41Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Measuring Psychological Depth in Language Models [50.48914935872879]
本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。
PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
論文 参考訳(メタデータ) (2024-06-18T14:51:54Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Creating Suspenseful Stories: Iterative Planning with Large Language
Models [2.6923151107804055]
本稿では,ストーリー・サスペンスの2つの理論的基礎に根ざした,反復型提案型計画手法を提案する。
本論文は,我々の知る限りでは,大規模言語モデルを用いたサスペンスな物語生成の試みである。
論文 参考訳(メタデータ) (2024-02-27T01:25:52Z) - Few-Shot Character Understanding in Movies as an Assessment to
Meta-Learning of Theory-of-Mind [47.13015852330866]
人間は、いくつかの観察によって、新しい架空のキャラクターを素早く理解することができる。
これは、人間のキャラクターの精神状態、すなわち理論・オブ・ミンド(ToM)の推論における、数少ないショットとメタラーニングの本質を反映している。
このギャップを新しいNLPデータセットであるToM-in-AMCで埋め、現実的な物語理解シナリオにおける機械によるToMのメタラーニングを初めて評価する。
論文 参考訳(メタデータ) (2022-11-09T05:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。