論文の概要: NarraBench: A Comprehensive Framework for Narrative Benchmarking
- arxiv url: http://arxiv.org/abs/2510.09869v1
- Date: Fri, 10 Oct 2025 21:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.657234
- Title: NarraBench: A Comprehensive Framework for Narrative Benchmarking
- Title(参考訳): NarraBench: ナラティブベンチマークのための総合的なフレームワーク
- Authors: Sil Hamilton, Matthew Wilkens, Andrew Piper,
- Abstract要約: 本稿では,ナラベンチ(Narra Bench)について紹介する。
既存のベンチマークでは、ストーリータスクの27%しかうまく捉えられていないと見積もっています。
- 参考スコア(独自算出の注目度): 2.2678171099418525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NarraBench, a theory-informed taxonomy of narrative-understanding tasks, as well as an associated survey of 78 existing benchmarks in the area. We find significant need for new evaluations covering aspects of narrative understanding that are either overlooked in current work or are poorly aligned with existing metrics. Specifically, we estimate that only 27% of narrative tasks are well captured by existing benchmarks, and we note that some areas -- including narrative events, style, perspective, and revelation -- are nearly absent from current evaluations. We also note the need for increased development of benchmarks capable of assessing constitutively subjective and perspectival aspects of narrative, that is, aspects for which there is generally no single correct answer. Our taxonomy, survey, and methodology are of value to NLP researchers seeking to test LLM narrative understanding.
- Abstract(参考訳): 本稿では,ナラベンチ(Narra Bench)について紹介する。ナラベンチ(Narra Bench)は,ナラベンチ地域における78の既存ベンチマークに関する調査である。
現在の作業で見過ごされているか,あるいは既存のメトリクスとの整合性が不十分な,物語理解の側面をカバーする,新たな評価の必要性が極めて大きい。
具体的には、既存のベンチマークでよく捉えられているのは27%に過ぎないと推定し、物語のイベント、スタイル、視点、啓示など、いくつかの領域は、現在の評価にほとんど欠落していることに留意する。
また、物語の主観的・観念的側面、つまり一般的には正しい答えが存在しない側面を評価することのできるベンチマークの開発の増加の必要性についても留意する。
我々の分類学、調査、方法論は、LPMの物語理解をテストしようとしているNLP研究者にとって価値がある。
関連論文リスト
- Improving Narrative Classification and Explanation via Fine Tuned Language Models [6.310433217813068]
本研究は,(1)ニュース記事における物語とサブナラティブのマルチラベル分類,(2)簡潔でエビデンスに基づく,支配的な物語の説明の生成という2つの課題に取り組む。
GPT-4oパイプラインを用いた総合的な物語検出, 予測の精細化のためのリコール指向アプローチにより, BERTモデルを微調整する。
本研究は, メディア分析, 教育, インテリジェンス収集における補助知識の活用により, 分類精度が向上し, 信頼性が向上することを示す。
論文 参考訳(メタデータ) (2025-09-04T10:12:31Z) - Agent-as-Judge for Factual Summarization of Long Narratives [37.46772108810212]
大規模言語モデル(LLM)は、ROUGEやBERTScoreといった従来のメトリクスに基づいた要約タスクにおいて、ほぼ人間に近い性能を示す。
LLM-as-a-Judgeのような最近の進歩は、語彙的類似性に基づくメトリクスの限界に対処するが、実際には矛盾を示す。
本稿では,要約を評価・精査するための新しい「Agent-as-a-Judge」フレームワークであるNarrativeFactScoreを紹介する。
論文 参考訳(メタデータ) (2025-01-17T07:23:06Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Branching Narratives: Character Decision Points Detection [13.615681132633561]
本稿では,CYOAライクなゲームグラフをベースとした新しいデータセットを提案する。
このようなモデルを既存のテキストに適用して,潜在的分岐点で分割した線形セグメントを生成する方法を示す。
論文 参考訳(メタデータ) (2024-05-12T13:36:07Z) - Fine-Grained Modeling of Narrative Context: A Coherence Perspective via Retrospective Questions [48.18584733906447]
この研究は、物語の中の個々の通路が孤立するよりも密接な関係にある傾向があるという特徴から生まれた、物語理解のためのオリジナルで実践的なパラダイムを取り入れたものである。
本稿では,タスク非依存のコヒーレンス依存を明示的に表現したNarCoというグラフを定式化することにより,物語コンテキストのきめ細かいモデリングを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:14:04Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。