Fugu-MT 論文翻訳(概要): Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation

論文の概要: Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation

arxiv url: http://arxiv.org/abs/2505.23824v1
Date: Wed, 28 May 2025 06:14:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.541017
Title: Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation
Title（参考訳）: LLMにおける臨界問題に関する学術論文のレビュー:ベースラインアプローチと自動評価
Authors: Tianmai M. Zhang, Neil F. Abernethy,
Abstract要約: 本稿では,いくつかのベースラインアプローチと,トップLLMを用いた拡張可能な自動評価フレームワークを導入し,手作業による評価のためにドメインエキスパートを募集することの難しさに対処する。本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基礎を定めている。
参考スコア（独自算出の注目度）: 0.552480439325792
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements in large language models have sparked interest in utilizing them to assist the peer review process of scientific publication. Instead of having AI models generate reviews in the same way as human reviewers, we propose adopting them as manuscript quality checkers. We introduce several baseline approaches and an extendable automatic evaluation framework using top LLMs as judges to tackle the difficulty of recruiting domain experts for manual evaluation. Utilizing papers withdrawn from arXiv, we validated our proposed methods with several leading reasoning LLMs from different providers and assessed their performance and API costs for identifying critical errors and unsoundness problems. The OpenAI o3 model performed the best, while o4-mini was the most cost-effective one in our evaluation. This paper provides insights into document-based scientific understanding/reasoning and lays the foundation for future applications.
Abstract（参考訳）: 大規模言語モデルの最近の進歩は、学術出版のピアレビュープロセスを支援するためにそれらを活用することへの関心を喚起している。 AIモデルが人間のレビュアーと同じ方法でレビューを生成する代わりに、原稿品質チェッカーとして採用することを提案する。本稿では,いくつかのベースラインアプローチと,トップLLMを用いた拡張可能な自動評価フレームワークを導入し,手作業による評価のためにドメインエキスパートを募集することの難しさに対処する。 arXiv から撤退した論文を利用して,提案手法を様々なプロバイダから LLM を導出して検証し,重要な誤りや不協和性の問題を特定するための性能と API コストを評価した。 OpenAI o3モデルが最も性能が良く,o4-miniが最もコスト効率が高かった。本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基礎を定めている。

関連論文リスト

Can Large Language Models Be Trusted Paper Reviewers? A Feasibility Study [24.387202495452886]
本研究は,学術論文レビューにLarge Language Models (LLMs) を用いることの可能性を検討する。このシステムは、Retrieval Augmented Generation (RAG)、AutoGen Multi-agent System、Chain-of-Thoughtを統合し、フォーマットチェック、標準化された評価、コメント生成、スコアリングなどのタスクをサポートする。 GPT-4o を用いた WASA 2024 会議からの 290 件の提出実験の結果,LCM に基づくレビューはレビュー時間 (平均 2.48 時間) とコスト (平均 104.28 米ドル) を著しく削減することが示された。
論文参考訳（メタデータ） (2025-06-18T10:19:18Z)
Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文参考訳（メタデータ） (2025-02-26T23:04:05Z)
ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文参考訳（メタデータ） (2025-02-17T12:22:11Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Streamlining the review process: AI-generated annotations in research manuscripts [0.5735035463793009]
本研究では,Large Language Models (LLM) をピアレビュープロセスに統合し,効率を向上する可能性について検討する。我々は、AIと人間のコラボレーションの潜在的な領域として、写本の注釈、特に抜粋ハイライトに焦点を当てている。本稿では,GPT-4を利用した原稿レビュープラットフォームAnnotateGPTを紹介する。
論文参考訳（メタデータ） (2024-11-29T23:26:34Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。 1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-02T19:41:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。