論文の概要: ChemPro: A Progressive Chemistry Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03108v1
- Date: Tue, 03 Feb 2026 05:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.25425
- Title: ChemPro: A Progressive Chemistry Benchmark for Large Language Models
- Title(参考訳): ChemPro: 大規模言語モデルのためのプログレッシブな化学ベンチマーク
- Authors: Aaditya Baranwal, Shruti Vyas,
- Abstract要約: ChemProは4100の自然言語問合せ対を持つプログレッシブベンチマークである。
LLM(Large Language Models)の習熟度を、一般的な化学トピックの幅広い範囲で評価するように設計されている。
- 参考スコア(独自算出の注目度): 4.3441332321802095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ChemPro, a progressive benchmark with 4100 natural language question-answer pairs in Chemistry, across 4 coherent sections of difficulty designed to assess the proficiency of Large Language Models (LLMs) in a broad spectrum of general chemistry topics. We include Multiple Choice Questions and Numerical Questions spread across fine-grained information recall, long-horizon reasoning, multi-concept questions, problem-solving with nuanced articulation, and straightforward questions in a balanced ratio, effectively covering Bio-Chemistry, Inorganic-Chemistry, Organic-Chemistry and Physical-Chemistry. ChemPro is carefully designed analogous to a student's academic evaluation for basic to high-school chemistry. A gradual increase in the question difficulty rigorously tests the ability of LLMs to progress from solving basic problems to solving more sophisticated challenges. We evaluate 45+7 state-of-the-art LLMs, spanning both open-source and proprietary variants, and our analysis reveals that while LLMs perform well on basic chemistry questions, their accuracy declines with different types and levels of complexity. These findings highlight the critical limitations of LLMs in general scientific reasoning and understanding and point towards understudied dimensions of difficulty, emphasizing the need for more robust methodologies to improve LLMs.
- Abstract(参考訳): 化学における4100の自然言語-問合せ対を持つプログレッシブなベンチマークであるChemProを,多種多様な化学分野において大規模言語モデル(LLM)の習熟度を評価するために設計した4つの困難区間にまたがって導入する。
本稿では, 微粒な情報リコール, 長距離推論, 多概念質問, ニュアンス調音による問題解決, バランスの取れた比での簡単な質問, バイオケミストリー, 無機化学, 有機化学, 物理化学を効果的にカバーしている。
ChemProは、学生の基礎から高校の化学に関する学術的な評価に類似して慎重に設計されている。
質問の段階的な増加は、基本的な問題の解決からより高度な課題の解決まで、LSMの能力の厳格な検証を困難にしている。
オープンソースとプロプライエタリの両方にまたがる45以上の最先端のLCMを評価した結果,LCMは基本的な化学的な問題に対して良好に機能するが,その精度は異なるタイプと複雑さのレベルで低下することがわかった。
これらの知見は、LLMの科学的推論と理解における限界と、LLMを改善するためのより堅牢な方法論の必要性を強調している。
関連論文リスト
- QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [19.804237919102903]
QCBenchは7つの化学サブフィールドにわたる350の計算化学問題からなる定量化学指向のベンチマークである。
それぞれの問題は、ショートカットを防止し、明示的な数値推論を要求するように構成されている。
QCBenchは、計算の弱点のきめ細かい診断を可能にし、モデル固有の制限を明らかにし、将来の改善の基盤となる。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [70.66610054938052]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。