論文の概要: Prestige over merit: An adapted audit of LLM bias in peer review
- arxiv url: http://arxiv.org/abs/2509.15122v1
- Date: Thu, 18 Sep 2025 16:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.330128
- Title: Prestige over merit: An adapted audit of LLM bias in peer review
- Title(参考訳): 功利に関する前提:ピアレビューにおけるLCMバイアスの適応的監査
- Authors: Anthony Howell, Jieshu Wang, Luyu Du, Julia Melkers, Varshil Shah,
- Abstract要約: 大規模言語モデル(LLM)は、学術的なピアレビューにおいて、次第に統合されつつも、概して非公式な役割を担っている。
著者の身元をランダム化して,高品質な写本群を代表的に評価するシミュレーションを開発した。
監査の結果、強い、一貫した制度的先制バイアスが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are playing an increasingly integral, though largely informal, role in scholarly peer review. Yet it remains unclear whether LLMs reproduce the biases observed in human decision-making. We adapt a resume-style audit to scientific publishing, developing a multi-role LLM simulation (editor/reviewer) that evaluates a representative set of high-quality manuscripts across the physical, biological, and social sciences under randomized author identities (institutional prestige, gender, race). The audit reveals a strong and consistent institutional-prestige bias: identical papers attributed to low-prestige affiliations face a significantly higher risk of rejection, despite only modest differences in LLM-assessed quality. To probe mechanisms, we generate synthetic CVs for the same author profiles; these encode large prestige-linked disparities and an inverted prestige-tenure gradient relative to national benchmarks. The results suggest that both domain norms and prestige-linked priors embedded in training data shape paper-level outcomes once identity is visible, converting affiliation into a decisive status cue.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学術的なピアレビューにおいて、次第に統合されつつも、概して非公式な役割を担っている。
しかし、LLMが人間の意思決定で観察されるバイアスを再現するかどうかは不明である。
我々は,学術出版に履歴書形式の監査を適用し,無作為な著作者名義(制度的名声,性別,人種)の下で,身体,生物学的,社会科学にまたがる高品質な写本群を代表的に評価するマルチロールLCMシミュレーション(編集者/レビュー者)を開発した。
監査は、強い、一貫性のある制度上の先入観的偏見を明らかにしており、LLM評価の品質にわずかの違いがあるにもかかわらず、低い先入観に起因した同一の論文は、拒否のリスクが著しく高い。
機構を探索するために、我々は同じ著者プロファイルのための合成CVを生成し、これらのCVは、国家ベンチマークに対する大きな名声リンクの相違と、逆の名声テア勾配を符号化する。
その結果,訓練データに埋め込まれたドメイン規範と高名な先駆者の両方が,同一性が見えると紙レベルの成果を形作り,アフィリエイトを決定的なステータスキューに変換することが示唆された。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review [11.761671590108406]
原稿間の相互比較を行うために,LLMエージェントを用いた新しいメカニズムを導入,検討する。
この比較手法は, 従来の評価に基づく手法よりも, 高インパクト論文の同定に優れることを示した。
論文 参考訳(メタデータ) (2025-06-12T22:27:20Z) - Can AI Solve the Peer Review Crisis? A Large Scale Cross Model Experiment of LLMs' Performance and Biases in Evaluating over 1000 Economics Papers [25.2441171957968]
本研究では,大規模言語モデル(LLM)による学術的査読プロセスの強化の可能性について,系統的バイアスを伴わずに,経済研究の質を確実に評価することによって検討する。
2つの相補的な実験で4つのLLMの大規模評価を行った。
我々は、GPT、Gemma、LLaMAが、匿名で提示された同じ論文に対して、上位の男性作家やエリート機関からの投稿に対して、かなり高い評価を割り当てていることを発見した。
論文 参考訳(メタデータ) (2025-01-31T04:04:02Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。