論文の概要: Can AI Solve the Peer Review Crisis? A Large Scale Cross Model Experiment of LLMs' Performance and Biases in Evaluating over 1000 Economics Papers
- arxiv url: http://arxiv.org/abs/2502.00070v2
- Date: Thu, 03 Apr 2025 02:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:54:39.116954
- Title: Can AI Solve the Peer Review Crisis? A Large Scale Cross Model Experiment of LLMs' Performance and Biases in Evaluating over 1000 Economics Papers
- Title(参考訳): AIはピアレビューの危機を解決できるか? LLMのパフォーマンスと1000以上の経済学論文の評価のための大規模クロスモデル実験
- Authors: Pat Pataranutaporn, Nattavudh Powdthavee, Chayapatr Achiwaranguprok, Pattie Maes,
- Abstract要約: 本研究では,大規模言語モデル(LLM)による学術的査読プロセスの強化の可能性について,系統的バイアスを伴わずに,経済研究の質を確実に評価することによって検討する。
2つの相補的な実験で4つのLLMの大規模評価を行った。
我々は、GPT、Gemma、LLaMAが、匿名で提示された同じ論文に対して、上位の男性作家やエリート機関からの投稿に対して、かなり高い評価を割り当てていることを発見した。
- 参考スコア(独自算出の注目度): 25.2441171957968
- License:
- Abstract: This study examines the potential of large language models (LLMs) to augment the academic peer review process by reliably evaluating the quality of economics research without introducing systematic bias. We conduct one of the first large-scale experimental assessments of four LLMs (GPT-4o, Claude 3.5, Gemma 3, and LLaMA 3.3) across two complementary experiments. In the first, we use nonparametric binscatter and linear regression techniques to analyze over 29,000 evaluations of 1,220 anonymized papers drawn from 110 economics journals excluded from the training data of current LLMs, along with a set of AI-generated submissions. The results show that LLMs consistently distinguish between higher- and lower-quality research based solely on textual content, producing quality gradients that closely align with established journal prestige measures. Claude and Gemma perform exceptionally well in capturing these gradients, while GPT excels in detecting AI-generated content. The second experiment comprises 8,910 evaluations designed to assess whether LLMs replicate human like biases in single blind reviews. By systematically varying author gender, institutional affiliation, and academic prominence across 330 papers, we find that GPT, Gemma, and LLaMA assign significantly higher ratings to submissions from top male authors and elite institutions relative to the same papers presented anonymously. These results emphasize the importance of excluding author-identifying information when deploying LLMs in editorial screening. Overall, our findings provide compelling evidence and practical guidance for integrating LLMs into peer review to enhance efficiency, improve accuracy, and promote equity in the publication process of economics research.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)による学術的査読プロセスの強化の可能性について,系統的バイアスを伴わずに,経済研究の質を確実に評価することによって検討する。
2つの相補的な実験で4つのLLM(GPT-4o, Claude 3.5, Gemma 3, LLaMA 3.3)の大規模評価を行った。
まず,従来のLCMのトレーニングデータから除外された110の経済誌から抽出された1,220件の匿名化論文の29,000件以上の評価と,AI生成された論文のセットを分析するために,非パラメトリックビンスキャッターと線形回帰手法を用いた。
その結果,LLMはテキストコンテンツのみに基づく高品質な研究と低品質な研究を一貫して区別し,確立した雑誌名声尺度と密に一致した品質勾配を生じさせることがわかった。
クロードとジェマはこれらの勾配を捉えるのに優れ、GPTはAI生成コンテンツを検出するのに優れている。
第2の実験は、8,910個の評価からなり、LLMが人間のような偏見を単一の盲目レビューで再現するかどうかを評価する。
GPT, Gemma, LLaMAは, 330件の論文において, 著者の性別, 制度的親和性, 学術的優越性を体系的に変化させることで, 匿名で提示された同論文と比較して, 上位の男性作家やエリート機関からの投稿に対して, かなり高い評価を付与していることがわかった。
これらの結果は,LLMを編集スクリーニングにデプロイする際の著者識別情報の排除の重要性を強調した。
本研究は,LLMをピアレビューに統合し,効率を向上し,精度を向上し,経済研究の出版過程における株式の獲得を促進するための,説得力のある証拠と実践的ガイダンスを提供する。
関連論文リスト
- Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Evaluation of Attribution Bias in Retrieval-Augmented Large Language Models [47.694137341509304]
大規模言語モデルにおける著者情報に対する属性感度とバイアスを評価する。
文献に著者情報を追加することで, LLMの属性品質を3%から18%大きく変化させることができることを示す。
その結果,資料のメタデータがLCMの信頼度や回答の属性に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T08:55:49Z) - Gender Bias of LLM in Economics: An Existentialism Perspective [1.024113475677323]
本稿では,大言語モデル(LLM)における性別バイアスについて検討する。
LLMは、明示的なジェンダーマーカーなしでもジェンダーステレオタイプを補強する。
LLMのバイアスは意図しない欠陥ではなく、合理的な処理の体系的な結果であると主張する。
論文 参考訳(メタデータ) (2024-10-14T01:42:01Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models [50.11814354654953]
AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
論文 参考訳(メタデータ) (2023-10-26T16:55:05Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。