論文の概要: What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation
- arxiv url: http://arxiv.org/abs/2512.12839v1
- Date: Sun, 14 Dec 2025 20:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.467056
- Title: What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation
- Title(参考訳): 長編小説評価の諸問題 : 長編小説評価の体系的研究
- Authors: Dingyi Yang, Qin Jin,
- Abstract要約: 最初の大規模ベンチマークであるLongStoryEvalを導入し,平均121Kトークン(最大397K)の600冊を新たに発行した。
ユーザによるすべての側面の分析により、評価基準構造を提案し、最も重要な側面を識別するための実験を行う。
評価手法として,アグリゲーションベース,インクリメンタル更新,要約ベースの評価の3つのタイプの有効性を比較した。
- 参考スコア(独自算出の注目度): 59.626962970198434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we conduct systematic research in a challenging area: the automatic evaluation of book-length stories (>100K tokens). Our study focuses on two key questions: (1) understanding which evaluation aspects matter most to readers, and (2) exploring effective methods for evaluating lengthy stories. We introduce the first large-scale benchmark, LongStoryEval, comprising 600 newly published books with an average length of 121K tokens (maximum 397K). Each book includes its average rating and multiple reader reviews, presented as critiques organized by evaluation aspects. By analyzing all user-mentioned aspects, we propose an evaluation criteria structure and conduct experiments to identify the most significant aspects among the 8 top-level criteria. For evaluation methods, we compare the effectiveness of three types: aggregation-based, incremental-updated, and summary-based evaluations. Our findings reveal that aggregation- and summary-based evaluations perform better, with the former excelling in detail assessment and the latter offering greater efficiency. Building on these insights, we further propose NovelCritique, an 8B model that leverages the efficient summary-based framework to review and score stories across specified aspects. NovelCritique outperforms commercial models like GPT-4o in aligning with human evaluations. Our datasets and codes are available at https://github.com/DingyiYang/LongStoryEval.
- Abstract(参考訳): 本研究では,本論文の自動評価(>100Kトークン)において,課題領域における体系的な研究を行う。
本研究は,(1)読者にとってどの評価面が重要であるかを理解すること,(2)長大なストーリーを評価する効果的な方法を模索すること,の2つの重要な疑問に焦点をあてる。
最初の大規模ベンチマークであるLongStoryEvalを導入し、600冊の新刊本を平均121Kトークン(最大397K)で紹介した。
各本は評価面によって組織された批評として提示される平均評価と複数の読者レビューを含んでいる。
本研究は,ユーザによるすべての側面の分析により,評価基準の構造と実験を行い,上位8段階の基準の中で最も重要な側面を識別する。
評価手法として,アグリゲーションベース,インクリメンタル更新,要約ベースの評価の3つのタイプの有効性を比較した。
その結果,アグリゲーションと要約に基づく評価が向上し,前者は詳細な評価に優れ,後者は効率が向上した。
これらの知見に基づいて,より効率的な要約ベースのフレームワークを利用して,特定の側面のストーリーをレビュー・スコアリングする8BモデルであるNovereCritiqueを提案する。
NovelCritiqueは、GPT-4oのような商用モデルよりも、人間の評価に適合している。
データセットとコードはhttps://github.com/DingyiYang/LongStoryEval.comで公開されています。
関連論文リスト
- Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - GLIMPSE: Pragmatically Informative Multi-Document Summarization for Scholarly Reviews [25.291384842659397]
本稿では,学術レビューの簡潔かつ包括的概要を提供するための要約手法であるsysを紹介する。
従来のコンセンサスに基づく手法とは異なり、sysは共通の意見とユニークな意見の両方をレビューから抽出する。
論文 参考訳(メタデータ) (2024-06-11T15:27:01Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - The Critique of Critique [45.40025444461465]
私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。
メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。
実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2024-01-09T12:20:41Z) - Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers [0.685316573653194]
創造的な自然言語生成に関する論文の中で,人間の評価について調査する。
最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。
最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
論文 参考訳(メタデータ) (2021-07-31T18:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。