論文の概要: Unveiling the Merits and Defects of LLMs in Automatic Review Generation for Scientific Papers
- arxiv url: http://arxiv.org/abs/2509.19326v1
- Date: Sat, 13 Sep 2025 19:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.42039
- Title: Unveiling the Merits and Defects of LLMs in Automatic Review Generation for Scientific Papers
- Title(参考訳): 学術論文の自動レビュー生成におけるLCMのメリットと欠陥の解明
- Authors: Ruochi Li, Haoxuan Zhang, Edward Gehringer, Ting Xiao, Junhua Ding, Haihua Chen,
- Abstract要約: 科学論文の急増は、従来のピアレビュープロセスに緊張を増している。
本稿では,意味的類似性分析と構造化知識グラフメトリクスを統合した総合評価フレームワークを提案する。
ICLRとNeurIPSによる1,683の論文と6,495の専門家レビューのベンチマークを数年間にわたって構築し、5つの大きな言語モデルを用いてレビューを生成する。
- 参考スコア(独自算出の注目度): 4.455306283717651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge in scientific submissions has placed increasing strain on the traditional peer-review process, prompting the exploration of large language models (LLMs) for automated review generation. While LLMs demonstrate competence in producing structured and coherent feedback, their capacity for critical reasoning, contextual grounding, and quality sensitivity remains limited. To systematically evaluate these aspects, we propose a comprehensive evaluation framework that integrates semantic similarity analysis and structured knowledge graph metrics to assess LLM-generated reviews against human-written counterparts. We construct a large-scale benchmark of 1,683 papers and 6,495 expert reviews from ICLR and NeurIPS in multiple years, and generate reviews using five LLMs. Our findings show that LLMs perform well in descriptive and affirmational content, capturing the main contributions and methodologies of the original work, with GPT-4o highlighted as an illustrative example, generating 15.74% more entities than human reviewers in the strengths section of good papers in ICLR 2025. However, they consistently underperform in identifying weaknesses, raising substantive questions, and adjusting feedback based on paper quality. GPT-4o produces 59.42% fewer entities than real reviewers in the weaknesses and increases node count by only 5.7% from good to weak papers, compared to 50% in human reviews. Similar trends are observed across all conferences, years, and models, providing empirical foundations for understanding the merits and defects of LLM-generated reviews and informing the development of future LLM-assisted reviewing tools. Data, code, and more detailed results are publicly available at https://github.com/RichardLRC/Peer-Review.
- Abstract(参考訳): 科学論文の急増は、従来のピアレビュープロセスに緊張を増し、自動レビュー生成のための大規模言語モデル(LLM)の探索を促している。
LLMは構造化されたコヒーレントなフィードバックを生み出す能力を示しているが、批判的推論、文脈的グラウンド、品質の感度は依然として限られている。
これらの側面を体系的に評価するために,意味的類似性分析と構造化知識グラフメトリクスを統合した総合評価フレームワークを提案する。
我々は,ICLRとNeurIPSによる1,683の論文と6,495の専門家レビューの大規模ベンチマークを複数年に渡り構築し,5つのLCMを用いてレビューを生成する。
GPT-4oは実例として強調され,ICLR 2025の優れた論文の長文部において,ヒトのレビュアーよりも15.74%のエンティティが生成される。
しかし、弱さの識別、実質的な疑問の提起、紙の品質に基づくフィードバックの調整において、一貫してパフォーマンスが劣っている。
GPT-4oは、実際のレビュアーよりも59.42%少ないエンティティを生成し、良い論文から弱い論文までのノード数をわずか5.7%増加させる。
同様の傾向は、全てのカンファレンス、年、モデルで見られ、LLM生成レビューのメリットと欠陥を理解し、将来のLLM支援レビューツールの開発を知らせる実証的な基盤を提供する。
データ、コード、さらに詳細な結果はhttps://github.com/RichardLRC/Peer-Review.comで公開されている。
関連論文リスト
- When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。