論文の概要: Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation
- arxiv url: http://arxiv.org/abs/2505.23824v2
- Date: Mon, 07 Jul 2025 17:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.371642
- Title: Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation
- Title(参考訳): LLMにおける臨界問題に関する学術論文のレビュー:ベースラインアプローチと自動評価
- Authors: Tianmai M. Zhang, Neil F. Abernethy,
- Abstract要約: 本稿では,いくつかのベースラインアプローチと,トップ推論 LLM を判断として用いた拡張可能な自動評価フレームワークを提案する。
O3は、全てのモデルで最低限のコストで、最高の問題識別性能を示した。
本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基盤となる。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in large language models have sparked interest in utilizing them to aid the peer review process of scientific publication amid the peer review crisis. However, having AI models generate full reviews in the same way as human reviewers risks exacerbating the irresponsible use of LLM-generated reviews. As an alternative, we propose adopting LLMs as manuscript quality checkers. We introduce several baseline approaches and an extendable automatic evaluation framework using top reasoning LLMs as judges to tackle the difficulty of recruiting domain experts for manual evaluation. Utilizing papers withdrawn from arXiv, we validated our proposed methods with several leading reasoning LLMs from multiple vendors and assessed their performance and API costs for identifying critical errors and unsoundness problems in scientific papers. o3 exhibited the best problem identification performance among all models at a modest cost. This paper provides insights into document-based scientific understanding/reasoning and lays a foundation for future applications. Our dataset, code, and model outputs are publicly available.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、ピアレビュー危機の中で、学術出版物のピアレビュープロセスを支援するためにそれらを活用することへの関心を喚起している。
しかし、AIモデルを持つことは、人間レビュアーがLLM生成レビューの無責任な使用を悪化させるリスクと同様に、完全なレビューを生成する。
代替として,LLMを原稿品質チェッカーとして採用することを提案する。
本稿では,いくつかのベースラインアプローチと,トップ推論 LLM を用いた拡張可能な自動評価フレームワークを導入し,手作業による評価のためにドメインエキスパートを募集することの難しさに対処する。
arXiv から撤退した論文を利用して,複数のベンダーから LLM を主要な理由として提案手法を検証し,その性能と API コストを評価し,科学的論文における致命的な誤りや不協和性の問題を特定した。
O3は、全てのモデルで最低限のコストで、最高の問題識別性能を示した。
本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基盤となる。
データセット、コード、モデル出力が公開されています。
関連論文リスト
- Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Streamlining the review process: AI-generated annotations in research manuscripts [0.5735035463793009]
本研究では,Large Language Models (LLM) をピアレビュープロセスに統合し,効率を向上する可能性について検討する。
我々は、AIと人間のコラボレーションの潜在的な領域として、写本の注釈、特に抜粋ハイライトに焦点を当てている。
本稿では,GPT-4を利用した原稿レビュープラットフォームAnnotateGPTを紹介する。
論文 参考訳(メタデータ) (2024-11-29T23:26:34Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。