論文の概要: Pre-review to Peer review: Pitfalls of Automating Reviews using Large Language Models
- arxiv url: http://arxiv.org/abs/2512.22145v1
- Date: Sun, 14 Dec 2025 09:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.07006
- Title: Pre-review to Peer review: Pitfalls of Automating Reviews using Large Language Models
- Title(参考訳): ピアレビューの事前レビュー:大規模言語モデルを用いたレビューの自動化の落とし穴
- Authors: Akhil Pandey Akella, Harish Varma Siravuri, Shaurya Rohatgi,
- Abstract要約: 大規模言語モデルは汎用的な汎用タスクソルバであり、その能力は学術的にピアレビューを行う人たちをテキストプレビューエージェントとして真に支援することができる。
非常に有益ではあるが、学術的ピアレビューの自動化は、概念として、安全性、研究の完全性、学術的ピアレビュープロセスの妥当性に関する懸念を提起する。
- 参考スコア(独自算出の注目度): 1.8349858105838042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are versatile general-task solvers, and their capabilities can truly assist people with scholarly peer review as \textit{pre-review} agents, if not as fully autonomous \textit{peer-review} agents. While incredibly beneficial, automating academic peer-review, as a concept, raises concerns surrounding safety, research integrity, and the validity of the academic peer-review process. The majority of the studies performing a systematic evaluation of frontier LLMs generating reviews across science disciplines miss the mark on addressing the alignment/misalignment of reviews along with the utility of LLM generated reviews when compared against publication outcomes such as \textbf{Citations}, \textbf{Hit-papers}, \textbf{Novelty}, and \textbf{Disruption}. This paper presents an experimental study in which we gathered ground-truth reviewer ratings from OpenReview and used various frontier open-weight LLMs to generate reviews of papers to gauge the safety and reliability of incorporating LLMs into the scientific review pipeline. Our findings demonstrate the utility of frontier open-weight LLMs as pre-review screening agents despite highlighting fundamental misalignment risks when deployed as autonomous reviewers. Our results show that all models exhibit weak correlation with human peer reviewers (0.15), with systematic overestimation bias of 3-5 points and uniformly high confidence scores (8.0-9.0/10) despite prediction errors. However, we also observed that LLM reviews correlate more strongly with post-publication metrics than with human scores, suggesting potential utility as pre-review screening tools. Our findings highlight the potential and address the pitfalls of automating peer reviews with language models. We open-sourced our dataset $D_{LMRSD}$ to help the research community expand the safety framework of automating scientific reviews.
- Abstract(参考訳): 大規模言語モデルは汎用的な汎用タスクソルバであり、その能力は、完全に自律的でない場合、学術的なピアレビューエージェントである‘textit{pre-review}エージェント’として、真に支援することができる。
非常に有益ではあるが、学術的ピアレビューの自動化は、概念として、安全性、研究の完全性、学術的ピアレビュープロセスの妥当性に関する懸念を提起する。
科学分野にまたがってレビューを創出するフロンティアのLLMを体系的に評価する研究の大半は、レビューのアライメント/ミスザライメント(英語版)に対処する点を見逃し、LLMの実用性は、出版成果である『textbf{Citations}』、『 \textbf{Hit-papers}』、『 \textbf{Novelty}』、『 \textbf{Disruption}』と比較すると、レビューを生成する。
本稿は,OpenReview から地中信頼度を収集し,様々なフロンティアオープンウェイト LLM を用いて論文のレビューを作成し,学術レビューパイプラインに LLM を組み込むことの安全性と信頼性を評価する実験である。
本研究は, 自律的なレビュアーとして展開する際の基本的なミスアライメントリスクを強調しつつ, プレレビュースクリーニングエージェントとしてのフロンティアオープンウェイトLLMの有用性を示すものである。
その結果, 予測誤差にもかかわらず, 全モデルに3~5点の系統的過大評価バイアス, 高信頼スコア(8.0~9.0/10)の相関が認められた(0.15)。
しかし,LLMレビューは人的スコアよりもポストパブリケーション指標と強く相関しており,事前レビュースクリーニングツールとしての有用性が示唆された。
本研究は,言語モデルを用いたピアレビューの自動化における潜在的な問題点と問題点を明らかにするものである。
我々は、研究コミュニティが科学レビューを自動化する安全フレームワークを拡張するのを助けるために、データセット$D_{LMRSD}$をオープンソース化しました。
関連論文リスト
- BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。
LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。
実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文 参考訳(メタデータ) (2025-10-01T12:14:28Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Automatic Evaluation Metrics for Artificially Generated Scientific Research [3.9845810840390743]
本研究では,2つの自動評価指標,特に引用数予測とレビュースコア予測について検討する。
本研究の結果から, 引用数予測はレビュースコア予測よりも有効であり, 完全論文より純粋にスコア予測が困難であることが判明した。
論文 参考訳(メタデータ) (2025-02-14T14:56:14Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。