論文の概要: NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment
- arxiv url: http://arxiv.org/abs/2604.11543v1
- Date: Mon, 13 Apr 2026 14:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.611993
- Title: NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment
- Title(参考訳): NovBench: 学術論文ノベルティアセスメントによる大規模言語モデルの評価
- Authors: Wenqing Wu, Yi Zhao, Yuzhuo Wang, Siyou Li, Juexi Shao, Yunfei Long, Chengzhi Zhang,
- Abstract要約: NovBenchは,大規模言語モデルの新規性評価を生成する能力を評価するために設計された,最初の大規模ベンチマークである。
NovBenchは、論文紹介から抽出したノベルティ記述や、それに対応する専門家によるノベルティ評価を含む、主要なNLPカンファレンスから1,684の論文レビューペアで構成されている。
LLMによる新規性評価の質を評価するための4次元評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.02516373665209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novelty is a core requirement in academic publishing and a central focus of peer review, yet the growing volume of submissions has placed increasing pressure on human reviewers. While large language models (LLMs), including those fine-tuned on peer review data, have shown promise in generating review comments, the absence of a dedicated benchmark has limited systematic evaluation of their ability to assess research novelty. To address this gap, we introduce NovBench, the first large-scale benchmark designed to evaluate LLMs' capability to generate novelty evaluations in support of human peer review. NovBench comprises 1,684 paper-review pairs from a leading NLP conference, including novelty descriptions extracted from paper introductions and corresponding expert-written novelty evaluations. We focus on both sources because the introduction provides a standardized and explicit articulation of novelty claims, while expert-written novelty evaluations constitute one of the current gold standards of human judgment. Furthermore, we propose a four-dimensional evaluation framework (including Relevance, Correctness, Coverage, and Clarity) to assess the quality of LLM-generated novelty evaluations. Extensive experiments on both general and specialized LLMs under different prompting strategies reveal that current models exhibit limited understanding of scientific novelty, and that fine--tuned models often suffer from instruction-following deficiencies. These findings underscore the need for targeted fine-tuning strategies that jointly improve novelty comprehension and instruction adherence.
- Abstract(参考訳): ノベルティは学術出版における中核的な要件であり、ピアレビューの焦点となっているが、提出の量の増加は人間のレビュアーに圧力をかけた。
大きな言語モデル(LLM)は、ピアレビューデータに基づいて微調整されているが、レビューコメントを生成することは約束されているが、専用のベンチマークがないことは、研究のノベルティを評価する能力の体系的評価に限られている。
このギャップに対処するために、人間のピアレビューをサポートする新規性評価を生成するLLMの能力を評価するために設計された最初の大規模ベンチマークであるNovBenchを紹介する。
NovBenchは、論文紹介から抽出したノベルティ記述や、それに対応する専門家によるノベルティ評価を含む、主要なNLPカンファレンスから1,684の論文レビューペアで構成されている。
ノベルティ・クレームの標準化された明示的な記述を提供するのに対し、専門家によるノベルティ評価は人間の判断の現在のゴールドスタンダードの1つである。
さらに, LLM生成ノベルティ評価の質を評価するための4次元評価フレームワーク(妥当性, 正確性, 包括性, 明度を含む)を提案する。
異なるプロンプト戦略の下での汎用LLMと専門LLMの広範な実験により、現在のモデルでは科学的なノベルティの理解が限られており、微調整されたモデルはしばしば命令追従の欠陥に悩まされることが判明した。
これらの知見は,新規性理解と指導の順守を両立させる微調整戦略の必要性を浮き彫りにした。
関連論文リスト
- InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (2026-02-16T00:40:31Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Identifying Aspects in Peer Reviews [59.02879434536289]
我々は、ピアレビューのコーパスからアスペクトを抽出するデータ駆動スキーマを開発した。
我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-04-09T14:14:42Z) - ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications [12.183473842592567]
学術論文において,大規模言語モデルの新規性を評価する能力を評価するために,学術ノベルティベンチマーク(SchNovel)を導入する。
SchNovelは、arXivデータセットからサンプリングされた6つのフィールドにわたる15,000の論文からなる。
RAG-Noveltyは、類似論文の検索を利用して、人間レビュアーによるレビュープロセスをシミュレートし、新規性を評価する。
論文 参考訳(メタデータ) (2024-09-25T04:12:38Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。