Fugu-MT 論文翻訳(概要): Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique

論文の概要: Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique

arxiv url: http://arxiv.org/abs/2502.19064v1
Date: Wed, 26 Feb 2025 11:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.490124
Title: Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique
Title（参考訳）: 大規模言語モデルは詩評において非専門家を上回ることができるか? : 合意的評価手法を用いた比較研究
Authors: Piotr Sawicki, Marek Grześ, Dan Brown, Fabrício Góes,
Abstract要約: CAT(Consensual Assessment Technique)は、総合的な専門家による判断を通じて創造性を評価する手法である。我々は2つの高度なLarge Language Model(LLM)、Claude-3-Opus と GPT-4o を用いて詩を評価する。 LLMは、出版会場に基づいて、基礎的な真実を一致させる非専門家の人間の裁判官によって達成された結果を上回ることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Consensual Assessment Technique (CAT) evaluates creativity through holistic expert judgments. We investigate the use of two advanced Large Language Models (LLMs), Claude-3-Opus and GPT-4o, to evaluate poetry by a methodology inspired by the CAT. Using a dataset of 90 poems, we found that these LLMs can surpass the results achieved by non-expert human judges at matching a ground truth based on publication venue, particularly when assessing smaller subsets of poems. Claude-3-Opus exhibited slightly superior performance than GPT-4o. We show that LLMs are viable tools for accurately assessing poetry, paving the way for their broader application into other creative domains.
Abstract（参考訳）: CAT(Consensual Assessment Technique)は、総合的な専門家による判断を通じて創造性を評価する手法である。 CATにインスパイアされた手法を用いて,2つの先進言語モデル (LLM) であるClaude-3-Opus と GPT-4o を用いて詩を評価する。 90首の詩のデータセットを用いて,これらの LLM は,出版場所に基づく根拠的真実の一致,特に少ないサブセットの詩の評価において,専門家でない審査員が達成した結果を上回ることができることがわかった。クロード-3-オプスはGPT-4oより若干優れた性能を示した。 LLMは詩を正確に評価するための有効なツールであり、他のクリエイティブドメインに広く適用するための道を開くものであることを示す。

関連論文リスト

LLMs can Perform Multi-Dimensional Analytic Writing Assessments: A Case Study of L2 Graduate-Level Academic English Writing [10.239220270988136]
我々は,L2大学院生による文献レビューのコーパスを用いて,9つの分析基準に対して,人間専門家による評価を行った。フィードバックコメントの品質を評価するために,新しいフィードバックコメント品質評価フレームワークを適用した。 LLMは、合理的に良好で信頼性の高い多次元解析アセスメントを生成することができる。
論文参考訳（メタデータ） (2025-02-17T02:31:56Z)
Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models [2.048226951354646]
本稿では,大規模言語モデルの文献レビュー作成能力を自動評価するフレームワークを提案する。我々は,3つのタスク(参照の生成,要約の執筆,文献レビューの執筆)でLLMの性能を評価する。
論文参考訳（メタデータ） (2024-12-18T08:42:25Z)
Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文参考訳（メタデータ） (2024-08-19T12:34:31Z)
Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文参考訳（メタデータ） (2024-06-27T05:36:53Z)
Evaluating LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3 [11.259583037191772]
小説における直接音声の発声におけるLlama-3の有効性について検討した。 LLMは28の小説のコーパスで印象的な結果を示し、ChatGPTとエンコーダベースのベースラインを大きなマージンで上回った。
論文参考訳（メタデータ） (2024-06-17T09:56:46Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Art or Artifice? Large Language Models and the False Promise of Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3～10倍少ないことが判明した。
論文参考訳（メタデータ） (2023-09-25T22:02:46Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。