論文の概要: Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation
- arxiv url: http://arxiv.org/abs/2505.23824v1
- Date: Wed, 28 May 2025 06:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.541017
- Title: Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation
- Title(参考訳): LLMにおける臨界問題に関する学術論文のレビュー:ベースラインアプローチと自動評価
- Authors: Tianmai M. Zhang, Neil F. Abernethy,
- Abstract要約: 本稿では,いくつかのベースラインアプローチと,トップLLMを用いた拡張可能な自動評価フレームワークを導入し,手作業による評価のためにドメインエキスパートを募集することの難しさに対処する。
本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基礎を定めている。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large language models have sparked interest in utilizing them to assist the peer review process of scientific publication. Instead of having AI models generate reviews in the same way as human reviewers, we propose adopting them as manuscript quality checkers. We introduce several baseline approaches and an extendable automatic evaluation framework using top LLMs as judges to tackle the difficulty of recruiting domain experts for manual evaluation. Utilizing papers withdrawn from arXiv, we validated our proposed methods with several leading reasoning LLMs from different providers and assessed their performance and API costs for identifying critical errors and unsoundness problems. The OpenAI o3 model performed the best, while o4-mini was the most cost-effective one in our evaluation. This paper provides insights into document-based scientific understanding/reasoning and lays the foundation for future applications.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、学術出版のピアレビュープロセスを支援するためにそれらを活用することへの関心を喚起している。
AIモデルが人間のレビュアーと同じ方法でレビューを生成する代わりに、原稿品質チェッカーとして採用することを提案する。
本稿では,いくつかのベースラインアプローチと,トップLLMを用いた拡張可能な自動評価フレームワークを導入し,手作業による評価のためにドメインエキスパートを募集することの難しさに対処する。
arXiv から撤退した論文を利用して,提案手法を様々なプロバイダから LLM を導出して検証し,重要な誤りや不協和性の問題を特定するための性能と API コストを評価した。
OpenAI o3モデルが最も性能が良く,o4-miniが最もコスト効率が高かった。
本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基礎を定めている。
関連論文リスト
- Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Streamlining the review process: AI-generated annotations in research manuscripts [0.5735035463793009]
本研究では,Large Language Models (LLM) をピアレビュープロセスに統合し,効率を向上する可能性について検討する。
我々は、AIと人間のコラボレーションの潜在的な領域として、写本の注釈、特に抜粋ハイライトに焦点を当てている。
本稿では,GPT-4を利用した原稿レビュープラットフォームAnnotateGPTを紹介する。
論文 参考訳(メタデータ) (2024-11-29T23:26:34Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。