論文の概要: Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique
- arxiv url: http://arxiv.org/abs/2502.19064v2
- Date: Sat, 04 Oct 2025 09:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.343001
- Title: Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique
- Title(参考訳): 大規模言語モデルは詩評において非専門家を上回ることができるか? : 合意的評価手法を用いた比較研究
- Authors: Piotr Sawicki, Marek Grześ, Dan Brown, Fabrício Góes,
- Abstract要約: 本研究は,Large Language Models (LLMs) に対するConsensual Assessment Technique (CAT) を適用した。
提案手法により, LLM が非専門家の審査員の成績を大幅に上回ることが実証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study adapts the Consensual Assessment Technique (CAT) for Large Language Models (LLMs), introducing a novel methodology for poetry evaluation. Using a 90-poem dataset with a ground truth based on publication venue, we demonstrate that this approach allows LLMs to significantly surpass the performance of non-expert human judges. Our method, which leverages forced-choice ranking within small, randomized batches, enabled Claude-3-Opus to achieve a Spearman's Rank Correlation of 0.87 with the ground truth, dramatically outperforming the best human non-expert evaluation (SRC = 0.38). The LLM assessments also exhibited high inter-rater reliability, underscoring the methodology's robustness. These findings establish that LLMs, when guided by a comparative framework, can be effective and reliable tools for assessing poetry, paving the way for their broader application in other creative domains.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) のためのConsensual Assessment Technique (CAT) を適用し,詩評定のための新しい手法を提案する。
出版会場をベースとした90-poemデータセットを用いて, LLMが非専門家の審査員の成績を大幅に上回ることを示す。
提案手法は, ランダム化された小バッチ内での強制選抜ランキングを利用して, クロード3-オプスがスピアマンのランク相関0.87と基礎的真理を達成し, 人間の非専門的評価(SRC=0.38)を劇的に上回る結果を得た(SRC=0.38)。
LLMの評価も高い信頼性を示し、方法論の堅牢性を強調した。
これらの結果から, LLMsは, 比較フレームワークによって指導された場合, 詩を評価する上で効果的で信頼性の高いツールであり, 創造的な領域に広く適用するための道を開くことができることがわかった。
関連論文リスト
- LLMs can Perform Multi-Dimensional Analytic Writing Assessments: A Case Study of L2 Graduate-Level Academic English Writing [10.239220270988136]
我々は,L2大学院生による文献レビューのコーパスを用いて,9つの分析基準に対して,人間専門家による評価を行った。
フィードバックコメントの品質を評価するために,新しいフィードバックコメント品質評価フレームワークを適用した。
LLMは、合理的に良好で信頼性の高い多次元解析アセスメントを生成することができる。
論文 参考訳(メタデータ) (2025-02-17T02:31:56Z) - Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models [2.048226951354646]
本稿では,大規模言語モデルの文献レビュー作成能力を自動評価するフレームワークを提案する。
我々は,3つのタスク(参照の生成,要約の執筆,文献レビューの執筆)でLLMの性能を評価する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - Evaluating LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3 [11.259583037191772]
小説における直接音声の発声におけるLlama-3の有効性について検討した。
LLMは28の小説のコーパスで印象的な結果を示し、ChatGPTとエンコーダベースのベースラインを大きなマージンで上回った。
論文 参考訳(メタデータ) (2024-06-17T09:56:46Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。