論文の概要: QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry
- arxiv url: http://arxiv.org/abs/2508.01670v1
- Date: Sun, 03 Aug 2025 08:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.999481
- Title: QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry
- Title(参考訳): QCBench: ドメイン特化量化学に基づく大規模言語モデルの評価
- Authors: Jiaqing Xie, Weida Wang, Ben Gao, Zhuo Yang, Haiyuan Wan, Shufei Zhang, Tianfan Fu, Yuqiang Li,
- Abstract要約: QCBenchは、7つの化学サブフィールドにわたる350の計算化学問題からなるベンチマークである。
それぞれの問題は、現実世界の化学垂直場に根ざした純粋計算に焦点を当てている。
19のLLMの評価は、タスクの複雑さを増大させるとともに、一貫したパフォーマンス劣化を示す。
- 参考スコア(独自算出の注目度): 12.18966912295507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantitative chemistry plays a fundamental role in chemistry research, enabling precise predictions of molecular properties, reaction outcomes, and material behaviors. While large language models (LLMs) have shown promise in chemistry-related tasks, their ability to perform rigorous, step-by-step quantitative reasoning remains underexplored. To fill this blank, we propose QCBench, a Quantitative Chemistry benchmark comprising 350 computational chemistry problems across 7 chemistry subfields (analytical chemistry, bio/organic chemistry, general chemistry, inorganic chemistry, physical chemistry, polymer chemistry and quantum chemistry), categorized into three hierarchical tiers-basic, intermediate, and expert-to systematically evaluate the mathematical reasoning abilities of large language models (LLMs). Designed to minimize shortcuts and emphasize stepwise numerical reasoning, each problem focuses on pure calculations rooted in real-world chemical vertical fields. QCBench enables fine-grained diagnosis of computational weaknesses, reveals model-specific limitations across difficulty levels, and lays the groundwork for future improvements such as domain adaptive fine-tuning or multi-modal integration. Evaluations on 19 LLMs demonstrate a consistent performance degradation with increasing task complexity, highlighting the current gap between language fluency and scientific computation accuracy.
- Abstract(参考訳): 定量化学は化学研究において基本的な役割を担い、分子特性、反応結果、物質挙動の正確な予測を可能にする。
大規模言語モデル (LLM) は化学関連タスクにおいて有望であるが、厳密で段階的に定量的な推論を行う能力はいまだ探索されていない。
この空白を埋めるために, 分析化学, 生有機化学, 一般化学, 無機化学, 物理化学, 高分子化学, 量子化学の7つの分野にまたがる350の計算化学問題からなる定量化学ベンチマークQCBenchを提案し, 大規模言語モデル(LLM)の数学的推論能力を体系的に評価する。
ショートカットを最小限に抑え、段階的に数値的推論を強調するように設計され、各問題は現実世界の化学垂直場に根ざした純粋計算に焦点を当てている。
QCBenchは、計算の弱点のきめ細かい診断を可能にし、難易度にまたがるモデル固有の制限を明らかにし、ドメイン適応微調整やマルチモーダル統合といった将来の改善の基盤となる。
19のLLMの評価は、タスクの複雑さが増すにつれて一貫した性能低下を示し、現在の言語流速と科学的計算精度のギャップを浮き彫りにしている。
関連論文リスト
- ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge [14.6026550444088]
この研究は化学の特定の分野に焦点をあて、ケミカル・リアソナー LLM, ChemDFM-R を開発した。
まず、原子化知識点の包括的データセットを構築し、モデルの基本原理と化学の論理構造に対する理解を深める。
多様な化学ベンチマークの実験により、ChemDFM-Rは、解釈可能で合理的な出力を提供しながら、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-07-29T16:40:49Z) - Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables [48.39080455781475]
ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
論文 参考訳(メタデータ) (2025-06-13T00:45:41Z) - ChemAU: Harness the Reasoning of LLMs in Chemical Research with Adaptive Uncertainty Estimation [21.30938446415292]
化学問題は通常、特定の用語を含む長い複雑な推論ステップを含む。
ChemAUは化学知識のギャップを特定し、特殊なドメインモデルで化学の専門知識を正確に補う。
論文 参考訳(メタデータ) (2025-06-01T18:45:49Z) - Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations [43.623140005091535]
我々は、分子構造理解を算術に着想を得た演算でブリッジする推論フレームワークであるChemCoTBenchを紹介する。
ChemCoTBenchは、化学的問題解決を透明でステップバイステップの推論に形式化する。
分子特性最適化と化学反応予測という2つの高影響タスクのモデルを評価する。
論文 参考訳(メタデータ) (2025-05-27T15:15:44Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Are large language models superhuman chemists? [4.87961182129702]
大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。
本稿では,最新のLCMの化学知識と推論能力を評価する自動化フレームワークであるChemBenchを紹介する。
我々は2700以上の質問応答ペアをキュレートし、主要なオープンソースとクローズドソースのLCMを評価し、最良のモデルが最高の化学者より優れていることを発見した。
論文 参考訳(メタデータ) (2024-04-01T20:56:25Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - ChemAlgebra: Algebraic Reasoning on Chemical Reactions [16.93639996082923]
ディープラーニングモデルが推論タスクに取り組む能力を持っているかどうかは不明だ。
ChemAlgebraは、ディープラーニングモデルの推論能力を測定するためのベンチマークである。
論文 参考訳(メタデータ) (2022-10-05T08:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。