論文の概要: Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\rightarrow$ Evidence Reasoning
- arxiv url: http://arxiv.org/abs/2506.08235v1
- Date: Mon, 09 Jun 2025 21:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.763896
- Title: Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\rightarrow$ Evidence Reasoning
- Title(参考訳): AIは科学を検証できるのか? 正確な科学的主張のためにLCMをベンチマークする
- Authors: Shashidhar Reddy Javaji, Yupeng Cao, Haohang Li, Yangyang Yu, Nikhil Muralidhar, Zining Zhu,
- Abstract要約: CLAIM-BENCHは,科学的クレームエビデンス抽出と検証において,大規模言語モデルの能力を評価するためのベンチマークである。
GPT-4やClaudeのようなクローズドソースモデルは、精度とリコールにおいて、オープンソースモデルよりも一貫して優れています。
戦略的に設計された3つのパスと1対1のプロンプトアプローチは、分散した証拠とクレームを正確にリンクするLSMの能力を大幅に向上させた。
- 参考スコア(独自算出の注目度): 6.043212666944194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly being used for complex research tasks such as literature review, idea generation, and scientific paper analysis, yet their ability to truly understand and process the intricate relationships within complex research papers, such as the logical links between claims and supporting evidence remains largely unexplored. In this study, we present CLAIM-BENCH, a comprehensive benchmark for evaluating LLMs' capabilities in scientific claim-evidence extraction and validation, a task that reflects deeper comprehension of scientific argumentation. We systematically compare three approaches which are inspired by divide and conquer approaches, across six diverse LLMs, highlighting model-specific strengths and weaknesses in scientific comprehension. Through evaluation involving over 300 claim-evidence pairs across multiple research domains, we reveal significant limitations in LLMs' ability to process complex scientific content. Our results demonstrate that closed-source models like GPT-4 and Claude consistently outperform open-source counterparts in precision and recall across claim-evidence identification tasks. Furthermore, strategically designed three-pass and one-by-one prompting approaches significantly improve LLMs' abilities to accurately link dispersed evidence with claims, although this comes at increased computational cost. CLAIM-BENCH sets a new standard for evaluating scientific comprehension in LLMs, offering both a diagnostic tool and a path forward for building systems capable of deeper, more reliable reasoning across full-length papers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文献レビュー、アイデア生成、科学論文分析といった複雑な研究課題にますます使われてきているが、主張と証拠の論理的リンクのような複雑な研究論文の中の複雑な関係を真に理解し、処理する能力は、いまだほとんど解明されていない。
本研究では,科学的クレームエビデンス抽出と検証におけるLCMの能力を評価するための総合的なベンチマークであるCLAIM-BENCHについて述べる。
科学的理解におけるモデル固有の強みと弱さを強調するため、6つの異なるLSMをまたいだ分割と征服のアプローチから着想を得た3つのアプローチを体系的に比較した。
複数の研究領域に300以上のクレーム・エビデンス・ペアを含む評価を通じて、LLMが複雑な科学内容を処理する能力に重大な制限があることを明らかにする。
GPT-4やClaudeのようなクローズドソースモデルは,クレーム・エビデンス識別タスクの精度とリコールにおいて,オープンソースモデルよりも一貫して優れていることを示す。
さらに、戦略的に設計された3パスと1対1のプロンプトアプローチにより、計算コストが増大するにもかかわらず、分散した証拠をクレームと正確にリンクするLLMの能力が大幅に向上する。
CLAIM-BENCHは、LLMの科学的理解を評価するための新しい標準を設定し、診断ツールと、フル長の論文にまたがるより深く信頼性の高い推論が可能なシステムを構築するための道筋を提供する。
関連論文リスト
- Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。
textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models [20.800445482814958]
LLM(Large Language Models)は、仮説生成に埋め込まれた科学的知識を活用する可能性に関心を寄せている。
既存のベンチマークは、LLMによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しないインフレーションされたパフォーマンス指標に繋がる。
本稿では,4つの領域にまたがる239の課題を伴う総合的なベンチマークであるLSM-SRBenchを紹介する。
我々のベンチマークは、2つの主要なカテゴリで構成されている: LSR-Transformは、一般的な物理モデルからあまり一般的でない数学的表現に変換し、記憶された形式を超えた推論をテストする。
論文 参考訳(メタデータ) (2025-04-14T17:00:13Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。
LLMは幻覚を発生させる傾向がある。
我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:50:00Z) - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [26.111514038691837]
SciAssessは、科学文献分析におけるLarge Language Models(LLM)の総合的な評価のためのベンチマークである。
記憶機能評価(L1)、記憶機能評価(L2)、分析・推論機能評価(L3)により,LLMの有効性を徹底的に評価することを目的とする。
それは、生物学、化学、材料、医学など、様々な科学分野から引き出された様々なタスクを含んでいる。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。