Fugu-MT 論文翻訳(概要): QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry

論文の概要: QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry

arxiv url: http://arxiv.org/abs/2508.01670v2
Date: Sat, 04 Oct 2025 05:53:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:58.518344
Title: QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry
Title（参考訳）: QCBench: ドメイン特化量化学に基づく大規模言語モデルの評価
Authors: Jiaqing Xie, Weida Wang, Ben Gao, Zhuo Yang, Haiyuan Wan, Shufei Zhang, Tianfan Fu, Yuqiang Li,
Abstract要約: QCBenchは7つの化学サブフィールドにわたる350の計算化学問題からなる定量化学指向のベンチマークである。それぞれの問題は、ショートカットを防止し、明示的な数値推論を要求するように構成されている。 QCBenchは、計算の弱点のきめ細かい診断を可能にし、モデル固有の制限を明らかにし、将来の改善の基盤となる。
参考スコア（独自算出の注目度）: 19.804237919102903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantitative chemistry is central to modern chemical research, yet the ability of large language models (LLMs) to perform its rigorous, step-by-step calculations remains underexplored. To fill this blank, we propose QCBench, a Quantitative Chemistry oriented benchmark comprising 350 computational chemistry problems across 7 chemistry subfields, which contains analytical chemistry, bio/organic chemistry, general chemistry, inorganic chemistry, physical chemistry, polymer chemistry and quantum chemistry. To systematically evaluate the mathematical reasoning abilities of large language models (LLMs), they are categorized into three tiers: easy, medium, and difficult. Each problem, rooted in realistic chemical scenarios, is structured to prevent heuristic shortcuts and demand explicit numerical reasoning. QCBench enables fine-grained diagnosis of computational weaknesses, reveals model-specific limitations across difficulty levels, and lays the groundwork for future improvements such as domain-adaptive fine-tuning or multi-modal integration. Evaluations on 24 LLMs demonstrate a consistent performance degradation with increasing task complexity, highlighting the current gap between language fluency and scientific computation accuracy. Code for QCBench is available at https://github.com/jiaqingxie/QCBench.
Abstract（参考訳）: 定量化学は現代の化学研究の中心であるが、その厳密でステップバイステップの計算を行うための大きな言語モデル(LLM)の能力はいまだ研究されていない。この空白を埋めるために, 分析化学, 生有機化学, 一般化学, 無機化学, 物理化学, 高分子化学, 量子化学を含む7つの亜分野の350の計算化学問題からなる定量化学指向ベンチマークQCBenchを提案する。大規模言語モデル(LLM)の数学的推論能力を体系的に評価するために、それらは3つの階層(簡単、中、困難)に分類される。現実的な化学シナリオに根ざした各問題は、ヒューリスティックなショートカットを防止し、明示的な数値推論を要求するように構成されている。 QCBenchは、計算の弱点のきめ細かい診断を可能にし、難易度にまたがるモデル固有の制限を明らかにし、ドメイン適応微調整やマルチモーダル統合といった将来の改善の基盤となる。 24 LLMの評価は、タスクの複雑さが増すにつれて一貫した性能低下を示し、現在の言語流速と科学的計算精度のギャップを浮き彫りにしている。 QCBenchのコードはhttps://github.com/jiaqingxie/QCBench.comで公開されている。

関連論文リスト

ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge [14.6026550444088]
この研究は化学の特定の分野に焦点をあて、ケミカル・リアソナー LLM, ChemDFM-R を開発した。まず、原子化知識点の包括的データセットを構築し、モデルの基本原理と化学の論理構造に対する理解を深める。多様な化学ベンチマークの実験により、ChemDFM-Rは、解釈可能で合理的な出力を提供しながら、最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-07-29T16:40:49Z)
Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables [48.39080455781475]
ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。 ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
論文参考訳（メタデータ） (2025-06-13T00:45:41Z)
ChemAU: Harness the Reasoning of LLMs in Chemical Research with Adaptive Uncertainty Estimation [21.30938446415292]
化学問題は通常、特定の用語を含む長い複雑な推論ステップを含む。 ChemAUは化学知識のギャップを特定し、特殊なドメインモデルで化学の専門知識を正確に補う。
論文参考訳（メタデータ） (2025-06-01T18:45:49Z)
Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations [43.623140005091535]
我々は、分子構造理解を算術に着想を得た演算でブリッジする推論フレームワークであるChemCoTBenchを紹介する。 ChemCoTBenchは、化学的問題解決を透明でステップバイステップの推論に形式化する。分子特性最適化と化学反応予測という2つの高影響タスクのモデルを評価する。
論文参考訳（メタデータ） (2025-05-27T15:15:44Z)
ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。 ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文参考訳（メタデータ） (2024-09-21T02:50:43Z)
ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。 ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文参考訳（メタデータ） (2024-08-14T01:16:40Z)
ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文参考訳（メタデータ） (2024-07-24T01:46:55Z)
Are large language models superhuman chemists? [4.87961182129702]
大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。本稿では,最新のLCMの化学知識と推論能力を評価する自動化フレームワークであるChemBenchを紹介する。我々は2700以上の質問応答ペアをキュレートし、主要なオープンソースとクローズドソースのLCMを評価し、最良のモデルが最高の化学者より優れていることを発見した。
論文参考訳（メタデータ） (2024-04-01T20:56:25Z)
ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。しかし、コミュニティには化学に特化したLLMが欠落している。本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文参考訳（メタデータ） (2024-02-10T01:11:59Z)
Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文参考訳（メタデータ） (2023-11-16T08:20:36Z)
ChemAlgebra: Algebraic Reasoning on Chemical Reactions [16.93639996082923]
ディープラーニングモデルが推論タスクに取り組む能力を持っているかどうかは不明だ。 ChemAlgebraは、ディープラーニングモデルの推論能力を測定するためのベンチマークである。
論文参考訳（メタデータ） (2022-10-05T08:34:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。