論文の概要: Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique
- arxiv url: http://arxiv.org/abs/2502.19064v2
- Date: Sat, 04 Oct 2025 09:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.343001
- Title: Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique
- Title(参考訳): 大規模言語モデルは詩評において非専門家を上回ることができるか? : 合意的評価手法を用いた比較研究
- Authors: Piotr Sawicki, Marek Grześ, Dan Brown, Fabrício Góes,
- Abstract要約: 本研究は,Large Language Models (LLMs) に対するConsensual Assessment Technique (CAT) を適用した。
提案手法により, LLM が非専門家の審査員の成績を大幅に上回ることが実証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study adapts the Consensual Assessment Technique (CAT) for Large Language Models (LLMs), introducing a novel methodology for poetry evaluation. Using a 90-poem dataset with a ground truth based on publication venue, we demonstrate that this approach allows LLMs to significantly surpass the performance of non-expert human judges. Our method, which leverages forced-choice ranking within small, randomized batches, enabled Claude-3-Opus to achieve a Spearman's Rank Correlation of 0.87 with the ground truth, dramatically outperforming the best human non-expert evaluation (SRC = 0.38). The LLM assessments also exhibited high inter-rater reliability, underscoring the methodology's robustness. These findings establish that LLMs, when guided by a comparative framework, can be effective and reliable tools for assessing poetry, paving the way for their broader application in other creative domains.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) のためのConsensual Assessment Technique (CAT) を適用し,詩評定のための新しい手法を提案する。
出版会場をベースとした90-poemデータセットを用いて, LLMが非専門家の審査員の成績を大幅に上回ることを示す。
提案手法は, ランダム化された小バッチ内での強制選抜ランキングを利用して, クロード3-オプスがスピアマンのランク相関0.87と基礎的真理を達成し, 人間の非専門的評価(SRC=0.38)を劇的に上回る結果を得た(SRC=0.38)。
LLMの評価も高い信頼性を示し、方法論の堅牢性を強調した。
これらの結果から, LLMsは, 比較フレームワークによって指導された場合, 詩を評価する上で効果的で信頼性の高いツールであり, 創造的な領域に広く適用するための道を開くことができることがわかった。
関連論文リスト
- AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - Evaluating the Evaluators: Are readability metrics good measures of readability? [36.138020084479784]
平易な言語要約 (PLS) は, 複雑な文書を, 専門家でない聴衆のために, アクセス可能な要約に抽出することを目的としている。
Flesch-Kincaid Grade Level (FKGL)のような従来の可読性指標は、PLSの人間の可読性判定と比較されていない。
言語モデル(LM)は可読性の判断に優れており,Pearsonと人間の判断との相関が0.56であることを示す。
論文 参考訳(メタデータ) (2025-08-26T17:38:42Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons [13.187011661009459]
大規模言語モデル(LLM)は、様々な領域にわたる効果的な評価指標であることが示されている。
Knockout Assessment, LLM-asa judge method using a knockout tournament system with iterationerative pairwise comparisons。
論文 参考訳(メタデータ) (2025-06-04T09:46:43Z) - LLMs Are Not Scorers: Rethinking MT Evaluation with Generation-Based Methods [0.0]
本稿では,デコーダのみの言語モデルを利用して高品質な参照を生成する世代ベース評価パラダイムを提案する。
実験の結果,本手法はMTMEのLLM内直接スコアリング基準値と外部非LLM基準値の両方より優れていた。
論文 参考訳(メタデータ) (2025-05-22T02:14:38Z) - LLMs can Perform Multi-Dimensional Analytic Writing Assessments: A Case Study of L2 Graduate-Level Academic English Writing [10.239220270988136]
我々は,L2大学院生による文献レビューのコーパスを用いて,9つの分析基準に対して,人間専門家による評価を行った。
フィードバックコメントの品質を評価するために,新しいフィードバックコメント品質評価フレームワークを適用した。
LLMは、合理的に良好で信頼性の高い多次元解析アセスメントを生成することができる。
論文 参考訳(メタデータ) (2025-02-17T02:31:56Z) - Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models [2.048226951354646]
本稿では,大規模言語モデルの文献レビュー作成能力を自動評価するフレームワークを提案する。
我々は,3つのタスク(参照の生成,要約の執筆,文献レビューの執筆)でLLMの性能を評価する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - Evaluating LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3 [11.259583037191772]
小説における直接音声の発声におけるLlama-3の有効性について検討した。
LLMは28の小説のコーパスで印象的な結果を示し、ChatGPTとエンコーダベースのベースラインを大きなマージンで上回った。
論文 参考訳(メタデータ) (2024-06-17T09:56:46Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。