論文の概要: From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review
- arxiv url: http://arxiv.org/abs/2506.11343v1
- Date: Thu, 12 Jun 2025 22:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.599745
- Title: From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review
- Title(参考訳): レプリケーションから再設計へ: LLMに基づくピアレビューのためのペアワイズ比較を探る
- Authors: Yaohui Zhang, Haijing Zhang, Wenlong Ji, Tianyu Hua, Nick Haber, Hancheng Cao, Weixin Liang,
- Abstract要約: 原稿間の相互比較を行うために,LLMエージェントを用いた新しいメカニズムを導入,検討する。
この比較手法は, 従来の評価に基づく手法よりも, 高インパクト論文の同定に優れることを示した。
- 参考スコア(独自算出の注目度): 11.761671590108406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large language models (LLMs) offers unprecedented opportunities to reimagine peer review beyond the constraints of traditional workflows. Despite these opportunities, prior efforts have largely focused on replicating traditional review workflows with LLMs serving as direct substitutes for human reviewers, while limited attention has been given to exploring new paradigms that fundamentally rethink how LLMs can participate in the academic review process. In this paper, we introduce and explore a novel mechanism that employs LLM agents to perform pairwise comparisons among manuscripts instead of individual scoring. By aggregating outcomes from substantial pairwise evaluations, this approach enables a more accurate and robust measure of relative manuscript quality. Our experiments demonstrate that this comparative approach significantly outperforms traditional rating-based methods in identifying high-impact papers. However, our analysis also reveals emergent biases in the selection process, notably a reduced novelty in research topics and an increased institutional imbalance. These findings highlight both the transformative potential of rethinking peer review with LLMs and critical challenges that future systems must address to ensure equity and diversity.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、従来のワークフローの制約を越えてピアレビューを再定義する前例のない機会を提供する。
これらの機会にもかかわらず、従来のレビューワークフローを人間レビュアーの直接の代用としてLLMで複製することに重点を置いている一方で、LLMが学術レビュアーのプロセスにどのように参加できるかを根本的に再考する新たなパラダイムの探求に限定的な関心が寄せられている。
本稿では, LLM エージェントを用いた個人スコアではなく, 原稿間の相互比較を行う機構を新たに導入し, 検討する。
実質的なペアワイズ評価の結果を集約することにより、より正確で堅牢な相対的原稿品質測定を可能にする。
この比較手法は, 従来の評価に基づく手法よりも, 高インパクト論文の同定に優れることを示した。
しかし,本分析では,選択過程における創発的バイアス,特に研究トピックの新規性の低下,制度的不均衡の増大も明らかにした。
これらの知見は、LLMでピアレビューを再考する革新的可能性と、将来のシステムが株式と多様性を確保するために取り組まなければならない重要な課題の両方を浮き彫りにしている。
関連論文リスト
- Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems [10.227007419503297]
大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。
電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。
以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
論文 参考訳(メタデータ) (2025-07-23T07:51:56Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Enhancing LLM Evaluations: The Garbling Trick [0.0]
本稿では,既存の大規模言語モデル(LLM)の評価を,段階的に困難なタスクに変換する手法を提案する。
これらの強化された評価は推論能力を強調し、元の評価では明らかでない相対的な性能差を明らかにすることができる。
以上の結果から,これらのモデルの比較能力に関する知見が得られ,特に,ベースLLMとより最近の「推論」モデルの違いが強調された。
論文 参考訳(メタデータ) (2024-11-03T11:39:50Z) - RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。