論文の概要: LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
- arxiv url: http://arxiv.org/abs/2507.00769v1
- Date: Tue, 01 Jul 2025 14:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.655495
- Title: LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
- Title(参考訳): LitBench: 創造的記述の信頼性評価のためのベンチマークとデータセット
- Authors: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber,
- Abstract要約: LitBenchは、最初の標準化されたベンチマークと、クリエイティブな書き込み検証のためのペアデータセットである。
LitBenchを用いてゼロショットLCMの審査員をベンチマークし、(ii)Bradley Terryを訓練し、生成報酬モデルを作成し、(iii)オンライン人間研究を行う。
我々のベンチマークでは、Claude-3.7-Sonnetが最強のオフ・ザ・シェルフ判事であり、人間の好みと一致している。
- 参考スコア(独自算出の注目度): 4.9387864960037495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.
- Abstract(参考訳): 大規模言語モデル(LLM)が生み出す創造的な文章を評価することは、オープンエンドの物語が根底にある真実を欠いているため、依然として困難である。
性能評価手法がなければ、オフ・ザ・シェルフ(OTS)言語モデルはゼロショット判定器として使用されるが、この文脈では信頼性が不明である。
クリエイティビティ・ライティングのための堅牢な評価を追求するために、最初の標準ベンチマークとペアによるクリエイティブ・ライティング検証用データセットであるLitBenchを紹介した。
LitBenchを使って、私たちは
(i)ゼロショットLDM審査員のベンチマーク
(二)ブラッドリー・テリーの訓練及び生成報酬モデル
三 新たにLLMが生成した物語の報酬モデルランキングの検証をオンラインで行うこと。
我々のベンチマークでは、Claude-3.7-Sonnetが最強のオフ・ザ・シェルフ判事であり、人間の嗜好と73%の一致を示した。
オンライン人間による研究では、私たちのトレーニングされた報酬モデルが、新しいLLM生成ストーリーにおける人間の嗜好と一貫して一致していることが確認されています。
We release LitBench and reward model at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3afe58f9e43461。
関連論文リスト
- Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - YourBench: Easy Custom Evaluation Sets for Everyone [12.995134931278056]
YourBenchは、大規模言語モデル(LLM)を評価するための、新しいオープンソースのフレームワークである。
手動のアノテーションなしで、信頼性が高く、最新で、ドメインに適したベンチマークを安価に生成する。
我々はTemporaに基づくYourBenchライブラリ、Tempora-0325データセット、150k以上の質問応答ペア、およびすべての評価と推論トレースをリリースする。
論文 参考訳(メタデータ) (2025-04-02T15:40:24Z) - Rate, Explain and Cite (REC): Enhanced Explanation and Attribution in Automatic Evaluation by Large Language Models [14.366425348130289]
本稿では,REC-8B,REC-12B,REC-70Bの3種類の汎用LDM自動評価器を紹介する。
それらは、忠実性、指示従順性、一貫性、完全性など、様々な次元で生成されたテキストを評価するように設計されている。
論文 参考訳(メタデータ) (2024-11-03T02:36:33Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。