論文の概要: WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
- arxiv url: http://arxiv.org/abs/2505.14818v1
- Date: Tue, 20 May 2025 18:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.702891
- Title: WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
- Title(参考訳): WebNovelBench: LLMのノベルニストをWebのノベルディストリビューションに配置する
- Authors: Leon Lin, Jun Zheng, Haidong Wang,
- Abstract要約: WebNovelBenchは、長文の新規生成を評価するために特別に設計された新しいベンチマークである。
我々は、4000以上の中国のウェブ小説のデータセットを活用し、シンボシー・ツー・ストーリー・ジェネレーション・タスクとしてのフレーミング評価を行った。
スコアはPrincipal Component Analysisを使って集約され、人間が作成した作品に対してパーセンタイルのランクにマップされる。
- 参考スコア(独自算出の注目度): 4.856346101661866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustly evaluating the long-form storytelling capabilities of Large Language Models (LLMs) remains a significant challenge, as existing benchmarks often lack the necessary scale, diversity, or objective measures. To address this, we introduce WebNovelBench, a novel benchmark specifically designed for evaluating long-form novel generation. WebNovelBench leverages a large-scale dataset of over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story generation task. We propose a multi-faceted framework encompassing eight narrative quality dimensions, assessed automatically via an LLM-as-Judge approach. Scores are aggregated using Principal Component Analysis and mapped to a percentile rank against human-authored works. Our experiments demonstrate that WebNovelBench effectively differentiates between human-written masterpieces, popular web novels, and LLM-generated content. We provide a comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling abilities and offering insights for future development. This benchmark provides a scalable, replicable, and data-driven methodology for assessing and advancing LLM-driven narrative generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の長期的ストーリーテリング能力のロバストな評価は依然として大きな課題であり、既存のベンチマークには必要なスケール、多様性、客観的な尺度が欠けていることが多い。
これを解決するために,WebNovelBenchを紹介した。
WebNovelBenchは、4000以上の中国のウェブノベルの大規模なデータセットを活用し、シンボプシー・ツー・ストーリー生成タスクとしてのフレーミング評価を行っている。
LLM-as-Judgeアプローチにより,8次元の物語品質を自動評価する多面的フレームワークを提案する。
スコアはPrincipal Component Analysisを使って集約され、人間が作成した作品に対してパーセンタイルのランクにマップされる。
実験の結果, WebNovelBenchは人手による傑作, 人気小説, LLM生成コンテンツとを効果的に区別できることがわかった。
我々は24の最先端LCMを包括的に分析し、ストーリーテリング能力のランキングと今後の開発のための洞察を提供する。
このベンチマークは、LLM駆動の物語生成を評価し、前進させるスケーラブルで、レプリカブルで、データ駆動の方法論を提供する。
関連論文リスト
- Modelling and Classifying the Components of a Literature Review [0.0]
本稿では, 言語モデル(LLM)を用いて, ドメインの専門家が手動で注釈付けした700文と, 自動ラベル付けされた2,240文からなる新しいベンチマークを提案する。
この実験は、この挑戦的な領域における芸術の状態を前進させるいくつかの新しい洞察をもたらす。
論文 参考訳(メタデータ) (2025-08-06T11:30:07Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Movie2Story: A framework for understanding videos and telling stories in the form of novel text [0.0]
補助情報に富んだシナリオにおけるテキスト生成能力を評価するための新しいベンチマークを提案する。
本研究は,高精度な補助情報の提供を確実にするための,革新的な自動データセット生成手法を提案する。
本実験により, 提案した評価指標に基づいて, 現在のMLLM(Multi-modal Large Language Models)が準最適に動作していることが判明した。
論文 参考訳(メタデータ) (2024-12-19T15:44:04Z) - Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。
本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches [25.133460380551327]
大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザー情報を取り込み、パーソナライズ・アプリケーションには有用である。
しかし, 新たな要約手法の開発は, ゼロ・トラストラベルの欠如, ユーザ・サマリー固有の主観性, 人的評価などによって妨げられている。
論文 参考訳(メタデータ) (2024-08-30T01:56:57Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。