論文の概要: CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?
- arxiv url: http://arxiv.org/abs/2503.21717v1
- Date: Thu, 27 Mar 2025 17:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:14.237453
- Title: CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?
- Title(参考訳): CLAIMCHECK:科学論文のLLM批判はどこまで根拠があるのか?
- Authors: Jiefu Ou, William Gantt Walden, Kate Sanders, Zhengping Jiang, Kaiser Sun, Jeffrey Cheng, William Jurayj, Miriam Wanner, Shaobo Liang, Candice Morgan, Seunghoon Han, Weiqi Wang, Chandler May, Hannah Recknor, Daniel Khashabi, Benjamin Van Durme,
- Abstract要約: CLAIMCHECKは、NeurIPS 2023と2024のアノテートデータセットであり、OpenReviewから抽出されたレビューである。
CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。
我々は,CLAIMCHECK が支援する3つのクレーム中心タスクについて,(1) 紛争のクレームに弱点を関連付けること,(2) 弱点のきめ細かいラベルを予測し,その特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証すること,の3つについて,LCM をベンチマークする。
- 参考スコア(独自算出の注目度): 36.8276301581362
- License:
- Abstract: A core part of scientific peer review involves providing expert critiques that directly assess the scientific claims a paper makes. While it is now possible to automatically generate plausible (if generic) reviews, ensuring that these reviews are sound and grounded in the papers' claims remains challenging. To facilitate LLM benchmarking on these challenges, we introduce CLAIMCHECK, an annotated dataset of NeurIPS 2023 and 2024 submissions and reviews mined from OpenReview. CLAIMCHECK is richly annotated by ML experts for weakness statements in the reviews and the paper claims that they dispute, as well as fine-grained labels of the validity, objectivity, and type of the identified weaknesses. We benchmark several LLMs on three claim-centric tasks supported by CLAIMCHECK, requiring models to (1) associate weaknesses with the claims they dispute, (2) predict fine-grained labels for weaknesses and rewrite the weaknesses to enhance their specificity, and (3) verify a paper's claims with grounded reasoning. Our experiments reveal that cutting-edge LLMs, while capable of predicting weakness labels in (2), continue to underperform relative to human experts on all other tasks.
- Abstract(参考訳): 科学的ピアレビューの中核的な部分は、論文が主張する科学的主張を直接評価する専門家の批評を提供することである。
現在、検証可能な(一般的な)レビューを自動的に生成することは可能であるが、これらのレビューが健全で、論文の主張に根ざしていることを保証することは依然として困難である。
これらの課題に対するLLMベンチマークを容易にするために,OpenReviewから抽出したNeurIPS 2023と2024のアノテートデータセットであるCLAIMCHECKを紹介した。
CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。
我々は,CLAIMCHECK が支援する3つのクレーム中心のタスクについて,(1) モデルの弱点と対立するクレームを関連付けること,(2) 弱点のきめ細かいラベルを予測し,それらの特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証することを要求する。
実験の結果, 最先端のLSMは, (2) の弱いラベルを予測できるが, その他のタスクにおいて, 人間の専門家に比べて性能が劣っていることが明らかとなった。
関連論文リスト
- Can AI Solve the Peer Review Crisis? A Large Scale Experiment on LLM's Performance and Biases in Evaluating Economics Papers [27.577384511393685]
大規模言語モデル(LLM)を用いて,9,030個のユニークな提案文の27,090個の評価を解析した。
この実験は、著者の特徴(例えば、アフィリエイト、評判、性別)と出版品質を体系的に変化させる。
その結果, LLMは紙の品質を効果的に区別するが, 著名な機関, 男性作家, 著名な経済学者に有利な偏見を示すことが示唆された。
論文 参考訳(メタデータ) (2025-01-31T04:04:02Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。