Fugu-MT 論文翻訳(概要): Automatically Evaluating the Paper Reviewing Capability of Large Language Models

論文の概要: Automatically Evaluating the Paper Reviewing Capability of Large Language Models

arxiv url: http://arxiv.org/abs/2502.17086v1
Date: Mon, 24 Feb 2025 12:05:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.547791
Title: Automatically Evaluating the Paper Reviewing Capability of Large Language Models
Title（参考訳）: 大規模言語モデルの可読性の自動評価
Authors: Hyungyu Shin, Jingyu Tang, Yoonjoo Lee, Nayoung Kim, Hyunseung Lim, Ji Yong Cho, Hwajung Hong, Moontae Lee, Juho Kim,
Abstract要約: 大きな言語モデル(LLM)は補助を提供する可能性を示しているが、研究はそれらが生成するレビューに重大な制限を報告している。本研究では, LLMの論文レビュー機能と専門家によるレビュー機能を比較することで, 自動評価パイプラインを構築した。
参考スコア（独自算出の注目度）: 46.0003776499898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Peer review is essential for scientific progress, but it faces challenges such as reviewer shortages and growing workloads. Although Large Language Models (LLMs) show potential for providing assistance, research has reported significant limitations in the reviews they generate. While the insights are valuable, conducting the analysis is challenging due to the considerable time and effort required, especially given the rapid pace of LLM developments. To address the challenge, we developed an automatic evaluation pipeline to assess the LLMs' paper review capability by comparing them with expert-generated reviews. By constructing a dataset consisting of 676 OpenReview papers, we examined the agreement between LLMs and experts in their strength and weakness identifications. The results showed that LLMs lack balanced perspectives, significantly overlook novelty assessment when criticizing, and produce poor acceptance decisions. Our automated pipeline enables a scalable evaluation of LLMs' paper review capability over time.
Abstract（参考訳）: ピアレビューは科学的進歩には不可欠だが、レビュア不足やワークロードの増加といった課題に直面している。大きな言語モデル(LLM)は補助を提供する可能性を示しているが、研究はそれらが生成するレビューに重大な制限を報告している。これらの知見は有用であるが、特にLDMの急速な発展のペースを考えると、必要な時間と労力のために分析を実行することは困難である。この課題に対処するために、専門家によるレビューと比較し、LCMの論文レビュー能力を評価するための自動評価パイプラインを開発した。 676のOpenReview論文からなるデータセットの構築により,LLMと専門家の強度と弱点の識別に関する合意について検討した。その結果,LLMにはバランスの取れた視点が欠如しており,批判時の新規性評価が著しく見落とされ,受理判断が不十分であった。我々の自動パイプラインは、LLMのペーパーレビュー機能を時間とともにスケーラブルに評価することを可能にする。

関連論文リスト

Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文参考訳（メタデータ） (2026-01-17T20:32:18Z)
Pre-review to Peer review: Pitfalls of Automating Reviews using Large Language Models [1.8349858105838042]
大規模言語モデルは汎用的な汎用タスクソルバであり、その能力は学術的にピアレビューを行う人たちをテキストプレビューエージェントとして真に支援することができる。非常に有益ではあるが、学術的ピアレビューの自動化は、概念として、安全性、研究の完全性、学術的ピアレビュープロセスの妥当性に関する懸念を提起する。
論文参考訳（メタデータ） (2025-12-14T09:56:07Z)
When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。 ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文参考訳（メタデータ） (2025-09-12T00:57:50Z)
Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文参考訳（メタデータ） (2025-08-11T13:08:07Z)
Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation [0.552480439325792]
本稿では,いくつかのベースラインアプローチと,トップ推論 LLM を判断として用いた拡張可能な自動評価フレームワークを提案する。 O3は、全てのモデルで最低限のコストで、最高の問題識別性能を示した。本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基盤となる。
論文参考訳（メタデータ） (2025-05-28T06:14:30Z)
ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [24.566487721847597]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文参考訳（メタデータ） (2025-03-11T14:56:58Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文参考訳（メタデータ） (2024-02-21T12:38:59Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。