論文の概要: Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator
- arxiv url: http://arxiv.org/abs/2505.19236v1
- Date: Sun, 25 May 2025 17:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.994894
- Title: Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator
- Title(参考訳): テキスト創造性の評価 : データセットと大規模言語モデル評価器
- Authors: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song,
- Abstract要約: 大規模言語モデル(LLM)の創造性評価は依然として挑戦的なフロンティアである
本稿では,テキストの創造性を評価するためのペアワイズ比較フレームワークを提案する。
CreataSetのトレーニングを通じて, CrEvalというLCMに基づく評価器を開発した。
- 参考スコア(独自算出の注目度): 26.89750429841565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creativity evaluation remains a challenging frontier for large language models (LLMs). Current evaluations heavily rely on inefficient and costly human judgments, hindering progress in enhancing machine creativity. While automated methods exist, ranging from psychological testing to heuristic- or prompting-based approaches, they often lack generalizability or alignment with human judgment. To address these issues, in this paper, we propose a novel pairwise-comparison framework for assessing textual creativity, leveraging shared contextual instructions to improve evaluation consistency. We introduce CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic creative instruction-response pairs spanning diverse open-domain tasks. Through training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval demonstrates remarkable superiority over existing methods in alignment with human judgments. Experimental results underscore the indispensable significance of integrating both human-generated and synthetic data in training highly robust evaluators, and showcase the practical utility of CrEval in boosting the creativity of LLMs. We will release all data, code, and models publicly soon to support further research.
- Abstract(参考訳): 創造性評価は、大きな言語モデル(LLM)にとって依然として挑戦的なフロンティアである。
現在の評価は非効率でコストのかかる人間の判断に大きく依存しており、機械の創造性を高める進歩を妨げる。
心理学的なテストからヒューリスティックなアプローチ、あるいはプロンプトベースのアプローチまで、自動化された方法が存在するが、一般的な可能性や人間の判断との整合性が欠如していることが多い。
そこで本稿では,テキストの創造性を評価するためのペアワイズ比較フレームワークを提案する。
さまざまなオープンドメインタスクにまたがる100K以上の人間レベルと1M以上の合成創造的命令応答ペアを備えた大規模データセットであるCreatorSetを紹介した。
CreataSetのトレーニングを通じて、私たちはCrEvalというLCMベースの評価器を開発した。
CrEvalは、人間の判断に沿った既存の方法よりも顕著な優位性を示している。
実験結果は, 人為的データと合成データを高度に堅牢な評価装置に組み込むことが不可欠であることを示すとともに, LLMの創造性を高めるためのCrEvalの実用的有用性を示すものである。
さらなる研究をサポートするために、すべてのデータ、コード、モデルをまもなく公開します。
関連論文リスト
- Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach [32.654673913638426]
本稿では,創造性を製品として評価するTorance Test of Creative Writing (TTCW)に基づく自動評価手法を提案する。
提案手法は、高品質な参照テキストに対して生成されたクリエイティブテキストをスコアリングする参照ベースのLikertスタイルのアプローチを用いる。
論文 参考訳(メタデータ) (2025-04-22T10:52:23Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - Optimizing the role of human evaluation in LLM-based spoken document summarization systems [0.0]
生成AIコンテンツに適した音声文書要約のための評価パラダイムを提案する。
実験設計における堅牢性, 再現性, 信頼性を確保するために, 詳細な評価基準とベストプラクティスガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-23T18:37:14Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。