論文の概要: From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review
- arxiv url: http://arxiv.org/abs/2506.11343v1
- Date: Thu, 12 Jun 2025 22:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.599745
- Title: From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review
- Title(参考訳): レプリケーションから再設計へ: LLMに基づくピアレビューのためのペアワイズ比較を探る
- Authors: Yaohui Zhang, Haijing Zhang, Wenlong Ji, Tianyu Hua, Nick Haber, Hancheng Cao, Weixin Liang,
- Abstract要約: 原稿間の相互比較を行うために,LLMエージェントを用いた新しいメカニズムを導入,検討する。
この比較手法は, 従来の評価に基づく手法よりも, 高インパクト論文の同定に優れることを示した。
- 参考スコア(独自算出の注目度): 11.761671590108406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large language models (LLMs) offers unprecedented opportunities to reimagine peer review beyond the constraints of traditional workflows. Despite these opportunities, prior efforts have largely focused on replicating traditional review workflows with LLMs serving as direct substitutes for human reviewers, while limited attention has been given to exploring new paradigms that fundamentally rethink how LLMs can participate in the academic review process. In this paper, we introduce and explore a novel mechanism that employs LLM agents to perform pairwise comparisons among manuscripts instead of individual scoring. By aggregating outcomes from substantial pairwise evaluations, this approach enables a more accurate and robust measure of relative manuscript quality. Our experiments demonstrate that this comparative approach significantly outperforms traditional rating-based methods in identifying high-impact papers. However, our analysis also reveals emergent biases in the selection process, notably a reduced novelty in research topics and an increased institutional imbalance. These findings highlight both the transformative potential of rethinking peer review with LLMs and critical challenges that future systems must address to ensure equity and diversity.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、従来のワークフローの制約を越えてピアレビューを再定義する前例のない機会を提供する。
これらの機会にもかかわらず、従来のレビューワークフローを人間レビュアーの直接の代用としてLLMで複製することに重点を置いている一方で、LLMが学術レビュアーのプロセスにどのように参加できるかを根本的に再考する新たなパラダイムの探求に限定的な関心が寄せられている。
本稿では, LLM エージェントを用いた個人スコアではなく, 原稿間の相互比較を行う機構を新たに導入し, 検討する。
実質的なペアワイズ評価の結果を集約することにより、より正確で堅牢な相対的原稿品質測定を可能にする。
この比較手法は, 従来の評価に基づく手法よりも, 高インパクト論文の同定に優れることを示した。
しかし,本分析では,選択過程における創発的バイアス,特に研究トピックの新規性の低下,制度的不均衡の増大も明らかにした。
これらの知見は、LLMでピアレビューを再考する革新的可能性と、将来のシステムが株式と多様性を確保するために取り組まなければならない重要な課題の両方を浮き彫りにしている。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Enhancing LLM Evaluations: The Garbling Trick [0.0]
本稿では,既存の大規模言語モデル(LLM)の評価を,段階的に困難なタスクに変換する手法を提案する。
これらの強化された評価は推論能力を強調し、元の評価では明らかでない相対的な性能差を明らかにすることができる。
以上の結果から,これらのモデルの比較能力に関する知見が得られ,特に,ベースLLMとより最近の「推論」モデルの違いが強調された。
論文 参考訳(メタデータ) (2024-11-03T11:39:50Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。