論文の概要: From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.03660v2
- Date: Wed, 03 Jun 2026 14:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.63729
- Title: From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models
- Title(参考訳): 回答から国家へ:大規模言語モデルにおける化学推論の検証可能なプロセスレベル評価
- Authors: Hongyu Guo, Hao Li, He Cao, Gongbo Zhang, Li Yuan,
- Abstract要約: ChemCoTBench-V2は、構造化された検証可能な化学推論トレースの評価のための、ルール検証可能な診断ベンチマークである。
分子理解、分子編集、分子最適化、反応予測にまたがっており、18の報告タスクで5,620個の評価サンプルがある。
- 参考スコア(独自算出の注目度): 37.34302729762671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.
- Abstract(参考訳): 大規模言語モデルは化学アシスタントとしてますます使われているが、ほとんどの化学ベンチマークでは最終的な答えしか得られていない。
モデルは正しい分子、生成物、オプションを出力するが、その推論は化学論理に反する。
既存のプロセスレベルの評価器は、LCM判断器と人間のステップレベルのプロセスアノテーションはコストが高く、一貫性がなく、幻覚に弱いため、スケールが難しい。
そこで我々は,ChemCoTBench-V2という,安価で監査可能な,構造化された,検証可能な化学推論トレース評価のためのルール検証型診断ベンチマークを紹介した。
分子理解、分子編集、分子最適化、反応予測にまたがっており、18の報告タスクで5,620個の評価サンプルがある。
モデルは、専門家が設計したテンプレートにおいて重要な中間ステップを公開し、これらのステップは決定論的化学規則でチェックされ、クローズド・アンサータスクでは、他のLCM審査員よりも参照トレースが使用される。
オープンエンド分子最適化は、厳密なトレースマッチングではなく、オラクルが検証可能な状態制約を用いて評価される。
ベンチマークでは、ファイナルアンサーの正当性、テンプレートの正当性、およびエキスパートの修正した中間コミットメントに対するステップワイズ検証の正当性という3つの信号が報告されている。
フロンティアモデルの実験では、最終回答の成功と構造化された状態整合性の間に永続的なギャップが示され、モデルはしばしば要求された形式に従うが、化学ステップチェックは失敗する。
ChemCoTBench-V2は、詳細なモデル比較を可能にし、トレースが検証に違反する具体的なステップを特定する。
関連論文リスト
- RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning [20.904697361501174]
私たちは、これらの知識をモデルに取り入れることが、中心的な課題であると主張している。
3つの重要な革新を通じて,化学的な理解を大規模に優先する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2026-02-10T07:42:23Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration [2.9496795797433073]
汎用大言語モデルを用いた分子推論のためのフレームワークを提案する。
本手法は, ユニークな原子識別子を用いて分子構造に対するチェーン・オブ・シント推論をアンカーする。
我々の研究は、理論的に基底付けられた合成データセットを生成する方法も提供する。
論文 参考訳(メタデータ) (2025-10-18T17:27:44Z) - Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math [80.46254366870447]
私たちは500時間以上の人的労力で生成された段階レベルの検証ベンチマークであるHard2Verifyを紹介します。
我々は29人の生成的批評家とプロセス報酬モデルを評価し、いくつかの点を超えて、オープンソースの検証者がクローズドソースモデルを評価することを実証した。
論文 参考訳(メタデータ) (2025-10-15T16:50:54Z) - MolErr2Fix: Benchmarking LLM Trustworthiness in Chemistry via Modular Error Detection, Localization, Explanation, and Revision [22.708008313748824]
LLM(Large Language Models)は、分子科学における潜在的な可能性を示すが、しばしば化学的に不正確な記述を生成する。
これにより、科学的応用における堅牢性と信頼性に関する重要な懸念が持ち上がる。
分子記述における誤り検出と訂正におけるLCMの評価を目的としたMollErr2Fixベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-26T05:43:45Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Retrosynthesis Prediction with Conditional Graph Logic Network [118.70437805407728]
コンピュータ支援のレトロシンセシスは、化学と計算機科学の双方から新たな関心を集めている。
本稿では,グラフニューラルネットワーク上に構築された条件付きグラフィカルモデルであるConditional Graph Logic Networkを用いて,この課題に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-06T05:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。