論文の概要: Traditional statistical representations outperform generative AI in identifying expert peer reviewers
- arxiv url: http://arxiv.org/abs/2605.18752v1
- Date: Mon, 18 May 2026 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.233608
- Title: Traditional statistical representations outperform generative AI in identifying expert peer reviewers
- Title(参考訳): 専門家ピアレビュアーの識別における従来の統計表現は生成AIを上回っている
- Authors: Vicente Amado Olivo, Tereza Jerabkova, Jakub Klencki, John Carpenter, Mario Malički, Ferdinando Patat, Louis-Gregory Strolger, Wolfgang Kerzendorf,
- Abstract要約: 科学論文の指数的な増加は、査読制度を歪めている。
統計的およびAIによる専門知識識別手法の信頼性を評価する。
この結果から,サブフィールドの専門知識の区別には微細な語彙が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 22.555352928759206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of scientific submissions has strained the peer review system. Despite the rapidly expanding global pool of researchers, this unprecedented scale has rendered the previous approach of manual expert identification unfeasible. Therefore, institutions have naturally turned to Large Language Models (LLMs) to automate intricate processes like expert reviewer identification. However, the reliability of these new models in accurately identifying domain experts lacks rigorous evaluation. We conduct a comprehensive empirical evaluation of statistical and AI-driven expertise identification methodologies to benchmark their reliability and limitations. Framing expert identification as an information retrieval problem, we utilize the distributed peer review system of a major international astronomical observatory, where proposal authorship serves as our proxy ground truth for domain expertise. Evaluating six retrieval methodologies utilized across observatories and computer science conferences, we demonstrate that traditional statistical representations outperform generative AI. Specifically, Term Frequency-Inverse Document Frequency successfully identified a labeled expert within the top 25 recommendations 79.5% of the time, compared to 51.5% for GPT-4o mini. Our results highlight that distinguishing subfield expertise requires fine-grained vocabulary, which is obscured by the semantic smoothing in generative methods. By establishing a rigorous evaluation framework for automated peer review, we demonstrate that transparent and reproducible statistical representations still outperform computationally expensive LLMs in specialized scientific tasks.
- Abstract(参考訳): 科学論文の指数的な増加は、査読制度を歪めている。
世界的な研究者の急増にもかかわらず、この前例のないスケールは、手作業による専門家の特定を不可能にしている。
そのため、機関はエキスパートレビュアー識別のような複雑なプロセスを自動化するために、自然にLarge Language Models (LLMs) に目を向けている。
しかし、ドメインエキスパートを正確に識別するこれらの新しいモデルの信頼性は厳密な評価を欠いている。
我々は、信頼性と限界をベンチマークするために、統計的およびAI主導の専門知識同定手法の総合的な実証評価を行う。
専門家の識別を情報検索問題とみなすため,我々は国際天文学天文台の分散ピアレビューシステムを利用する。
観測所やコンピュータ科学会議において活用される6つの検索手法の評価を行い、従来の統計表現が生成AIより優れていることを示した。
具体的には、用語周波数-逆文書頻度は、GPT-4o miniの51.5%に対して、上位25の推奨事項の79.5%で、ラベル付き専門家の特定に成功した。
この結果から, サブフィールドの専門知識の区別には細粒度の語彙が必要であることが示唆された。
自動ピアレビューのための厳密な評価枠組みを確立することにより, 透過的かつ再現可能な統計表現が, 専門的な科学的タスクにおいて, 計算コストの高いLLMよりも優れていることを示す。
関連論文リスト
- Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation [32.5154721488471]
LLM(Large Language Models)は、従来のベンチマークで高い性能を示す。
既存のフレームワークは、狭いドメインカバレッジ、ジェネラリストのタスクへの依存、あるいは自己評価バイアスに悩まされている。
XpertBench(英語版)は、真の専門分野にわたるLSMを評価するために開発された高忠実度ベンチマークである。
論文 参考訳(メタデータ) (2026-03-27T11:28:15Z) - An Expert Schema for Evaluating Large Language Model Errors in Scholarly Question-Answering Systems [1.9138416746729587]
大規模言語モデル(LLM)は、探索や要約といった学術的なタスクを変換しているが、その信頼性は未だに不明である。
質問応答システムにおけるLCMの誤りを評価するためのスキーマを開発し,実験者の評価戦略を反映した。
論文 参考訳(メタデータ) (2026-02-24T16:16:44Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - How to Build AI Agents by Augmenting LLMs with Codified Human Expert Domain Knowledge? A Software Engineering Framework [3.0049184484925604]
批判的なドメイン知識は、通常、少数の専門家と共に存在する。
非専門家は効果的な可視化を作成するのに苦労する。
本稿では,AIエージェントシステムに人間のドメイン知識を取り込み,組み込む方法について検討する。
論文 参考訳(メタデータ) (2026-01-21T16:23:22Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - On the Biased Assessment of Expert Finding Systems [11.083396379885478]
大きな組織では、特定のトピックについて専門家を特定することが、チームや部門にまたがる内部知識を活用する上で非常に重要です。
このケーススタディでは、これらのレコメンデーションが専門家発見システムの評価に与える影響について分析する。
本稿では,システム検証アノテーションが従来の用語ベース検索モデルの性能過大評価につながることを示す。
また,同義語を用いた知識領域を拡大し,その構成語に対するリテラル言及に対する強い偏見を明らかにする。
論文 参考訳(メタデータ) (2024-10-07T13:19:08Z) - Firenze: Model Evaluation Using Weak Signals [5.723905680436377]
本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
論文 参考訳(メタデータ) (2022-07-02T13:20:38Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。