論文の概要: Evaluating Large Language Models for Abstract Evaluation Tasks: An Empirical Study
- arxiv url: http://arxiv.org/abs/2601.19925v1
- Date: Fri, 09 Jan 2026 15:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.545126
- Title: Evaluating Large Language Models for Abstract Evaluation Tasks: An Empirical Study
- Title(参考訳): 抽象的評価課題のための大規模言語モデルの評価--実証的研究
- Authors: Yinuo Liu, Emre Sezgin, Eric A. Youngstrom,
- Abstract要約: 大規模言語モデル(LLM)は、要求を処理し、テキストを生成することができるが、学術的コンテンツを評価する可能性にはさらなる調査が必要である。
本研究では,ChatGPT-5,Gemini-3-Pro,Claude-Sonnet-4.5の相互比較およびヒトレビュアーに対する抽象概念の整合性と信頼性について検討した。
- 参考スコア(独自算出の注目度): 1.412242138378466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Introduction: Large language models (LLMs) can process requests and generate texts, but their feasibility for assessing complex academic content needs further investigation. To explore LLM's potential in assisting scientific review, this study examined ChatGPT-5, Gemini-3-Pro, and Claude-Sonnet-4.5's consistency and reliability in evaluating abstracts compared to one another and to human reviewers. Methods: 160 abstracts from a local conference were graded by human reviewers and three LLMs using one rubric. Composite score distributions across three LLMs and fourteen reviewers were examined. Inter-rater reliability was calculated using intraclass correlation coefficients (ICCs) for within-AI reliability and AI-human concordance. Bland-Altman plots were examined for visual agreement patterns and systematic bias. Results: LLMs achieved good-to-excellent agreement with each other (ICCs: 0.59-0.87). ChatGPT and Claude reached moderate agreement with human reviewers on overall quality and content-specific criteria, with ICCs ~.45-.60 for composite, impression, clarity, objective, and results. They exhibited fair agreement on subjective dimensions, with ICC ranging from 0.23-0.38 for impact, engagement, and applicability. Gemini showed fair agreement on half criteria and no reliability on impact and applicability. Three LLMs showed acceptable or negligible mean difference (ChatGPT=0.24, Gemini=0.42, Claude=-0.02) from the human mean composite scores. Discussion: LLMs could process abstracts in batches with moderate agreement with human experts on overall quality and objective criteria. With appropriate process architecture, they can apply a rubric consistently across volumes of abstracts exceeding feasibility for a human rater. The weaker performance on subjective dimensions indicates that AI should serve a complementary role in evaluation, while human expertise remains essential.
- Abstract(参考訳): 導入: 大規模言語モデル(LLM)は、要求を処理し、テキストを生成することができるが、複雑な学術的コンテンツを評価するためには、さらなる調査が必要である。
LLMが科学的レビューを補助する可能性を探るため,ChatGPT-5,Gemini-3-Pro,Claude-Sonnet-4.5の一貫性と信頼性を比較検討した。
方法: 地元の会議から160件の要約を、人間レビュアーと3件のLLMで1件のルーリックを用いて評価した。
3台のLLMと14台のレビュアーの複合スコア分布について検討した。
階層内相関係数(ICC)を用いて,AI内信頼度とAI-ヒト一致度を算出した。
Bland-Altmanプロットは視覚的コンセンサスパターンと系統的バイアスについて検討した。
結果: LLMは相互に良好な合意(ICC: 0.59-0.87)を得た。
ChatGPT と Claude は、総合的な品質と内容固有の基準について、人間レビュアーと適度な合意に達し、ICC ~.45-.60 は合成、印象、明瞭さ、目的、結果について合意に達した。
彼らは主観的寸法について公正な合意を示し、ICCは影響、エンゲージメント、適用性について0.23-0.38の範囲であった。
Geminiは、半分の基準で公正な合意を示し、影響と適用性に対する信頼性を示さなかった。
3つのLCMは、ヒトの平均合成スコアから許容または無視可能な平均差(ChatGPT=0.24, Gemini=0.42, Claude=-0.02)を示した。
議論: LLMは、全体的な品質と客観的基準について、人間専門家と適度な合意を得て、バッチで抽象化を処理することができる。
適切なプロセスアーキテクチャでは、人間のレーダの実現可能性を超える抽象概念のボリュームに一貫してルーブリックを適用することができる。
主観的次元におけるより弱いパフォーマンスは、AIが評価において補完的な役割を果たすべきであり、一方で人間の専門知識は依然として不可欠であることを示している。
関連論文リスト
- Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education [0.30158609733245967]
高等教育環境におけるエッセイ自動評価において,5つの高度な大規模言語モデル (LLM) , Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, Mistral 24B について検討した。
イタリア語の学生エッセイは、合計67点が4基準ルーブリックを用いて評価された。
人間とLLMの合意は一貫して低く、非重要であり、複製間のモデル内信頼性も同様に弱かった。
論文 参考訳(メタデータ) (2025-08-04T14:02:12Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - Evaluating Large Language Models Against Human Annotators in Latent Content Analysis: Sentiment, Political Leaning, Emotional Intensity, and Sarcasm [0.3141085922386211]
本研究では,7つの最先端大規模言語モデル(LLM)の信頼性,一貫性,品質を評価する。
合計33人のアノテータと8つのLDM変種が100のキュレートされたテキストアイテムを評価した。
その結果、人間とLLMは、感情分析と政治的傾倒評価において高い信頼性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-01-05T13:28:15Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Large Language Models as Partners in Student Essay Evaluation [5.479797073162603]
本稿では,3つのシナリオで実際の学生エッセイを用いて,Large Language Models (LLMs) を用いて評価を行った。
その結果, LLMと教職員評価の相関関係は, 事前に特定したルーリックとの相互比較シナリオにおいて強い相関性を示した。
論文 参考訳(メタデータ) (2024-05-28T22:28:50Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。