論文の概要: SUPERChem: A Multimodal Reasoning Benchmark in Chemistry
- arxiv url: http://arxiv.org/abs/2512.01274v1
- Date: Mon, 01 Dec 2025 04:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.685583
- Title: SUPERChem: A Multimodal Reasoning Benchmark in Chemistry
- Title(参考訳): SuperPERChem: 化学におけるマルチモーダル推論ベンチマーク
- Authors: Zehua Zhao, Zhixian Huang, Junren Li, Siyu Lin, Junting Zhou, Fengqi Cao, Kun Zhou, Rui Ge, Tingting Long, Yuexiang Zhu, Yan Liu, Jie Zheng, Junnian Wei, Rong Zhu, Peng Zou, Wenyu Li, Zekai Cheng, Tian Ding, Yaxuan Wang, Yizhao Yan, Tingru Wei, Haowei Ming, Weijie Mao, Chen Sun, Yiming Liu, Zichen Wang, Zuo Zhang, Tong Yang, Hao Ma, Zhen Gao, Jian Pei,
- Abstract要約: SUPERChemは、500人の専門家による推論集約化学問題のベンチマークである。
それぞれの問題は、専門家によるソリューションパスとペアリングされます。
人間のベースラインに対する評価は40.3%の精度で、最高のパフォーマンスモデルであるGPT-5(High)でさえ38.5%にしか達していない。
- 参考スコア(独自算出の注目度): 47.60627566673109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks for evaluating the chemical reasoning capabilities of Large Language Models (LLMs) are limited by oversimplified tasks, lack of process-level evaluation, and misalignment with expert-level chemistry skills. To address these issues, we introduce SUPERChem, a benchmark of 500 expert-curated reasoning-intensive chemistry problems, covering diverse subfields and provided in both multimodal and text-only formats. Original content and an iterative curation pipeline eliminate flawed items and mitigate data contamination. Each problem is paired with an expert-authored solution path, enabling Reasoning Path Fidelity (RPF) scoring to evaluate reasoning quality beyond final-answer accuracy. Evaluations against a human baseline of 40.3% accuracy show that even the best-performing model, GPT-5 (High), reaches only 38.5%, followed closely by Gemini 2.5 Pro (37.9%) and DeepSeek-V3.1-Think (37.3%). SUPERChem elicits multi-step, multimodal reasoning, reveals model-dependent effects of visual information, and distinguishes high-fidelity reasoners from heuristic ones. By providing a challenging benchmark and a reliable evaluation framework, SUPERChem aims to facilitate the advancement of LLMs toward expert-level chemical intelligence. The dataset of the benchmark is available at https://huggingface.co/datasets/ZehuaZhao/SUPERChem.
- Abstract(参考訳): 大規模言語モデル(LLM)の化学推論能力を評価するための現在のベンチマークは、過度に単純化されたタスク、プロセスレベルの評価の欠如、専門家レベルの化学技術との相違によって制限されている。
これらの問題に対処するため,500人の専門家による推論集約型化学問題のベンチマークである SUPERChem を導入し,多様なサブフィールドをカバーし,マルチモーダルおよびテキストのみのフォーマットで提供される。
オリジナルコンテンツと反復キュレーションパイプラインは、欠陥のあるアイテムを排除し、データの汚染を軽減する。
各問題は、専門家が認可したソリューションパスと組み合わせて、推論品質を最終回答精度を超えて評価するReasoning Path Fidelity (RPF) スコアを可能にする。
人間のベースラインを40.3%精度で評価すると、最高のパフォーマンスモデルであるGPT-5(High)でさえ38.5%に達し、続いてGemini 2.5 Pro(37.9%)とDeepSeek-V3.1-Think(37.3%)が続いた。
SUPERChemは多段階のマルチモーダル推論を導入し、視覚情報のモデル依存効果を明らかにし、高忠実度推論とヒューリスティック推論を区別する。
SUPERChemは、挑戦的なベンチマークと信頼性評価フレームワークを提供することで、専門家レベルの化学知能へのLCMの進歩を促進することを目指している。
ベンチマークのデータセットはhttps://huggingface.co/datasets/ZehuaZhao/SUPERChemで公開されている。
関連論文リスト
- ChemLabs on ChemO: A Multi-Agent System for Multimodal Reasoning on IChO 2025 [10.434011696348561]
ChemOは、国際化学オリンピック(IChO)2025から開発された新しいベンチマークである。
ChemLabsは、人間の専門家のコラボレーションを模倣する階層的なマルチエージェントフレームワークである。
我々のトップ構成は100点中93.6点に達し、人間の金メダルの閾値を上回ります。
論文 参考訳(メタデータ) (2025-11-20T10:15:39Z) - QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [19.804237919102903]
QCBenchは7つの化学サブフィールドにわたる350の計算化学問題からなる定量化学指向のベンチマークである。
それぞれの問題は、ショートカットを防止し、明示的な数値推論を要求するように構成されている。
QCBenchは、計算の弱点のきめ細かい診断を可能にし、モデル固有の制限を明らかにし、将来の改善の基盤となる。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [70.66610054938052]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - ChemCrow: Augmenting large-language models with chemistry tools [0.9195187117013247]
大規模言語モデル(LLM)は、領域全体にわたるタスクにおいて高いパフォーマンスを示してきたが、化学に関連した問題に悩まされている。
本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。
我々のエージェントは、昆虫の忌避剤である3種の有機触媒の合成を自律的に計画し、実行し、新しいクロモフォアの発見を導いた。
論文 参考訳(メタデータ) (2023-04-11T17:41:13Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。