論文の概要: Can AI Solve the Peer Review Crisis? A Large Scale Experiment on LLM's Performance and Biases in Evaluating Economics Papers
- arxiv url: http://arxiv.org/abs/2502.00070v1
- Date: Fri, 31 Jan 2025 04:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:52.332542
- Title: Can AI Solve the Peer Review Crisis? A Large Scale Experiment on LLM's Performance and Biases in Evaluating Economics Papers
- Title(参考訳): AIはピアレビューの危機を解決できるか? 経済学論文の評価におけるLLMのパフォーマンスとバイアスに関する大規模な実験
- Authors: Pat Pataranutaporn, Nattavudh Powdthavee, Pattie Maes,
- Abstract要約: 大規模言語モデル(LLM)を用いて,9,030個のユニークな提案文の27,090個の評価を解析した。
この実験は、著者の特徴(例えば、アフィリエイト、評判、性別)と出版品質を体系的に変化させる。
その結果, LLMは紙の品質を効果的に区別するが, 著名な機関, 男性作家, 著名な経済学者に有利な偏見を示すことが示唆された。
- 参考スコア(独自算出の注目度): 27.577384511393685
- License:
- Abstract: We investigate whether artificial intelligence can address the peer review crisis in economics by analyzing 27,090 evaluations of 9,030 unique submissions using a large language model (LLM). The experiment systematically varies author characteristics (e.g., affiliation, reputation, gender) and publication quality (e.g., top-tier, mid-tier, low-tier, AI generated papers). The results indicate that LLMs effectively distinguish paper quality but exhibit biases favoring prominent institutions, male authors, and renowned economists. Additionally, LLMs struggle to differentiate high-quality AI-generated papers from genuine top-tier submissions. While LLMs offer efficiency gains, their susceptibility to bias necessitates cautious integration and hybrid peer review models to balance equity and accuracy.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)を用いて,9,030件のユニークな提案を27,090件評価することにより,人工知能が経済学におけるピアレビュー危機に対処できるかどうかを検討する。
この実験は、著者の特徴(例えば、アフィリエイト、評判、性別)と出版品質(例えば、上位層、中層、下位層、AI生成論文)を体系的に変化させる。
その結果, LLMは紙の品質を効果的に区別するが, 著名な機関, 男性作家, 著名な経済学者に有利な偏見を示すことが示唆された。
さらに、LLMは、高品質なAI生成論文と真のトップレベルの論文とを区別するのに苦労している。
LLMは効率性の向上を提供するが、バイアスへの感受性は、株式と精度のバランスをとるために慎重な統合とハイブリッドピアレビューモデルを必要とする。
関連論文リスト
- Evaluation of Attribution Bias in Retrieval-Augmented Large Language Models [47.694137341509304]
大規模言語モデルにおける著者情報に対する属性感度とバイアスを評価する。
文献に著者情報を追加することで, LLMの属性品質を3%から18%大きく変化させることができることを示す。
その結果,資料のメタデータがLCMの信頼度や回答の属性に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T08:55:49Z) - Gender Bias of LLM in Economics: An Existentialism Perspective [1.024113475677323]
本稿では,大言語モデル(LLM)における性別バイアスについて検討する。
LLMは、明示的なジェンダーマーカーなしでもジェンダーステレオタイプを補強する。
LLMのバイアスは意図しない欠陥ではなく、合理的な処理の体系的な結果であると主張する。
論文 参考訳(メタデータ) (2024-10-14T01:42:01Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models [50.11814354654953]
AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
論文 参考訳(メタデータ) (2023-10-26T16:55:05Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。