論文の概要: Large language models for post-publication research evaluation: Evidence from expert recommendations and citation indicators
- arxiv url: http://arxiv.org/abs/2604.16387v1
- Date: Fri, 27 Mar 2026 11:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.953444
- Title: Large language models for post-publication research evaluation: Evidence from expert recommendations and citation indicators
- Title(参考訳): 公開後研究評価のための大規模言語モデル:専門家推薦と引用指標からの証拠
- Authors: Mengjia Wu, Yi Zhang, Robin Haunschild, Lutz Bornmann,
- Abstract要約: 大規模言語モデル(LLM)は、テキストコンテンツに基づいた自動研究評価のための新たな機会を提供する。
本研究では,LLMが専門家の判断や引用に基づく指標に対して出力をベンチマークすることで,ポストパブリケーションのピアレビュータスクをサポートできるかを検討する。
- 参考スコア(独自算出の注目度): 2.952559770088323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of scientific research is essential for scholarly communication, yet widely used approaches face limitations in scalability, subjectivity, and time delay. Recent advances in large language models (LLMs) offer new opportunities for automated research evaluation based on textual content. This study examines whether LLMs can support post-publication peer review tasks by benchmarking their outputs against expert judgments and citation-based indicators. Two evaluation tasks are constructed using articles from the H1 Connect platform: identifying high-quality articles and performing finer-grained evaluation including article rating, merit classification, and expert style commenting. Multiple model families, including BERT models, general-purpose LLMs, and reasoning oriented LLMs, are evaluated under multiple learning strategies. Results show that LLMs perform well in coarse grained evaluation tasks, achieving accuracy above 0.8 in identifying highly recommended articles. However, performance decreases substantially in fine-grained rating tasks. Few-shot prompting improves performance over zero-shot settings, while supervised fine-tuning produces the strongest and most balanced results. Retrieval augmented prompting improves classification accuracy in some cases but does not consistently strengthen alignment with citation indicators. The overall correlations between model outputs and citation indicators remain positive but moderate.
- Abstract(参考訳): 学術的なコミュニケーションには科学研究の質を評価することが不可欠であるが、広く使われているアプローチはスケーラビリティ、主観性、時間遅延の限界に直面している。
大規模言語モデル(LLM)の最近の進歩は、テキストコンテンツに基づく自動研究評価の新たな機会を提供する。
本研究では,LLMが専門家の判断や引用に基づく指標に対して出力をベンチマークすることで,ポストパブリケーションのピアレビュータスクをサポートできるかを検討する。
H1 Connectプラットフォームからの2つの評価タスクは、高品質な記事の識別と、記事の評価、価値分類、エキスパートスタイルのコメントを含むよりきめ細かい評価を行う。
BERTモデル、汎用LLM、推論指向LLMを含む複数のモデルファミリーを、複数の学習戦略に基づいて評価する。
その結果,LLMは粗粒度評価タスクにおいて良好に機能し,高い推奨項目の特定において0.8以上の精度が得られた。
しかし、微粒な評価タスクでは性能が大幅に低下する。
ショットプロンプトはゼロショット設定よりもパフォーマンスが向上する一方、教師付き微調整は最強で最もバランスの取れた結果を生成する。
Retrieval augmented promptingは、いくつかのケースでは分類精度を向上させるが、引用指標との整合性を一貫して強化しない。
モデル出力と引用インジケータの全体的な相関は、正だが適度である。
関連論文リスト
- LLM4SCREENLIT: Recommendations on Assessing the Performance of Large Language Models for Screening Literature in Systematic Reviews [2.2175470459999636]
我々は、系統的なレビューにおいて、関連する文献を特定するために、Gen-AIツールのパフォーマンスを評価するために伝統的なメトリクスを使用する際の問題を特定する。
主な弱点は、不均衡なデータに対して堅牢で、結果が偶然よりも優れているかどうかを直接示さないメトリクスを使用できないことであった。
ポジティブな面では、研究者や実践者や政策立案者に対する勧告が構築される優れた(評価)プラクティスを抽出する。
論文 参考訳(メタデータ) (2025-11-16T15:04:50Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。