論文の概要: WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
- arxiv url: http://arxiv.org/abs/2505.14818v1
- Date: Tue, 20 May 2025 18:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.702891
- Title: WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
- Title(参考訳): WebNovelBench: LLMのノベルニストをWebのノベルディストリビューションに配置する
- Authors: Leon Lin, Jun Zheng, Haidong Wang,
- Abstract要約: WebNovelBenchは、長文の新規生成を評価するために特別に設計された新しいベンチマークである。
我々は、4000以上の中国のウェブ小説のデータセットを活用し、シンボシー・ツー・ストーリー・ジェネレーション・タスクとしてのフレーミング評価を行った。
スコアはPrincipal Component Analysisを使って集約され、人間が作成した作品に対してパーセンタイルのランクにマップされる。
- 参考スコア(独自算出の注目度): 4.856346101661866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustly evaluating the long-form storytelling capabilities of Large Language Models (LLMs) remains a significant challenge, as existing benchmarks often lack the necessary scale, diversity, or objective measures. To address this, we introduce WebNovelBench, a novel benchmark specifically designed for evaluating long-form novel generation. WebNovelBench leverages a large-scale dataset of over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story generation task. We propose a multi-faceted framework encompassing eight narrative quality dimensions, assessed automatically via an LLM-as-Judge approach. Scores are aggregated using Principal Component Analysis and mapped to a percentile rank against human-authored works. Our experiments demonstrate that WebNovelBench effectively differentiates between human-written masterpieces, popular web novels, and LLM-generated content. We provide a comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling abilities and offering insights for future development. This benchmark provides a scalable, replicable, and data-driven methodology for assessing and advancing LLM-driven narrative generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の長期的ストーリーテリング能力のロバストな評価は依然として大きな課題であり、既存のベンチマークには必要なスケール、多様性、客観的な尺度が欠けていることが多い。
これを解決するために,WebNovelBenchを紹介した。
WebNovelBenchは、4000以上の中国のウェブノベルの大規模なデータセットを活用し、シンボプシー・ツー・ストーリー生成タスクとしてのフレーミング評価を行っている。
LLM-as-Judgeアプローチにより,8次元の物語品質を自動評価する多面的フレームワークを提案する。
スコアはPrincipal Component Analysisを使って集約され、人間が作成した作品に対してパーセンタイルのランクにマップされる。
実験の結果, WebNovelBenchは人手による傑作, 人気小説, LLM生成コンテンツとを効果的に区別できることがわかった。
我々は24の最先端LCMを包括的に分析し、ストーリーテリング能力のランキングと今後の開発のための洞察を提供する。
このベンチマークは、LLM駆動の物語生成を評価し、前進させるスケーラブルで、レプリカブルで、データ駆動の方法論を提供する。
関連論文リスト
- WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Movie2Story: A framework for understanding videos and telling stories in the form of novel text [0.0]
補助情報に富んだシナリオにおけるテキスト生成能力を評価するための新しいベンチマークを提案する。
本研究は,高精度な補助情報の提供を確実にするための,革新的な自動データセット生成手法を提案する。
本実験により, 提案した評価指標に基づいて, 現在のMLLM(Multi-modal Large Language Models)が準最適に動作していることが判明した。
論文 参考訳(メタデータ) (2024-12-19T15:44:04Z) - Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。
本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。