論文の概要: Can Large Language Models Be Trusted Paper Reviewers? A Feasibility Study
- arxiv url: http://arxiv.org/abs/2506.17311v1
- Date: Wed, 18 Jun 2025 10:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.336725
- Title: Can Large Language Models Be Trusted Paper Reviewers? A Feasibility Study
- Title(参考訳): 大規模言語モデルはレビュアーを信頼できるか? : 可能性スタディ
- Authors: Chuanlei Li, Xu Hu, Minghui Xu, Kun Li, Yue Zhang, Xiuzhen Cheng,
- Abstract要約: 本研究は,学術論文レビューにLarge Language Models (LLMs) を用いることの可能性を検討する。
このシステムは、Retrieval Augmented Generation (RAG)、AutoGen Multi-agent System、Chain-of-Thoughtを統合し、フォーマットチェック、標準化された評価、コメント生成、スコアリングなどのタスクをサポートする。
GPT-4o を用いた WASA 2024 会議からの 290 件の提出実験の結果,LCM に基づくレビューはレビュー時間 (平均 2.48 時間) とコスト (平均 104.28 米ドル) を著しく削減することが示された。
- 参考スコア(独自算出の注目度): 24.387202495452886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Academic paper review typically requires substantial time, expertise, and human resources. Large Language Models (LLMs) present a promising method for automating the review process due to their extensive training data, broad knowledge base, and relatively low usage cost. This work explores the feasibility of using LLMs for academic paper review by proposing an automated review system. The system integrates Retrieval Augmented Generation (RAG), the AutoGen multi-agent system, and Chain-of-Thought prompting to support tasks such as format checking, standardized evaluation, comment generation, and scoring. Experiments conducted on 290 submissions from the WASA 2024 conference using GPT-4o show that LLM-based review significantly reduces review time (average 2.48 hours) and cost (average \$104.28 USD). However, the similarity between LLM-selected papers and actual accepted papers remains low (average 38.6\%), indicating issues such as hallucination, lack of independent judgment, and retrieval preferences. Therefore, it is recommended to use LLMs as assistive tools to support human reviewers, rather than to replace them.
- Abstract(参考訳): 学術論文レビューは通常、かなりの時間、専門知識、人的資源を必要とする。
大言語モデル(LLM)は、広範囲のトレーニングデータ、幅広い知識ベース、比較的低い使用コストのために、レビュープロセスを自動化するための有望な方法を提供する。
本研究は、自動レビューシステムを提案することにより、学術論文レビューにLLMを使うことの可能性を検討する。
このシステムは、Retrieval Augmented Generation (RAG)、AutoGen Multi-agent System、Chain-of-Thoughtを統合し、フォーマットチェック、標準化された評価、コメント生成、スコアリングなどのタスクをサポートする。
GPT-4o を用いて WASA 2024 会議から 290 件の提出を行った結果,LCM に基づくレビューではレビュー時間 (平均 2.48 時間) とコスト (平均 $104.28 USD) が大幅に削減された。
しかし、LLMが選択した論文と実際の論文との類似性は低く(平均38.6\%)、幻覚、独立した判断の欠如、検索の好みなどの問題を示している。
そのため,LLMを代替ではなく,人間レビュアーを支援する補助ツールとして用いることが推奨されている。
関連論文リスト
- Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation [0.552480439325792]
本稿では,いくつかのベースラインアプローチと,トップLLMを用いた拡張可能な自動評価フレームワークを導入し,手作業による評価のためにドメインエキスパートを募集することの難しさに対処する。
本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基礎を定めている。
論文 参考訳(メタデータ) (2025-05-28T06:14:30Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review [42.112100361891905]
本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
論文 参考訳(メタデータ) (2024-09-06T20:12:57Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。