論文の概要: Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning
- arxiv url: http://arxiv.org/abs/2605.07251v1
- Date: Fri, 08 May 2026 05:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.812915
- Title: Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning
- Title(参考訳): 薬剤は反応を抑えるか? : 化学コスト推論によるLCMの評価
- Authors: Yuyang Wu, Yue Huang, Shuaike Shen, Xujian Wang, Shuhao Zhang, Qiyao Xue, Weichen Liu, Runtian Gao, Jian Ma, Xiangliang Zhang, Olexandr Isayev,
- Abstract要約: 大規模言語モデル(LLM)は、ツール使用エージェントとしてますます機能してきている。
ChemCostは、2,261の化学物質と230,775のサプライヤの見積もりをカバーする、凍結価格スナップショットに基づく1,427個の評価可能な反応のベンチマークである。
フロンティア、オープンウェイト、化学特殊化LLMエージェントを用いた実験では、ツールアクセスは必要だが、タスクの解決には不十分であることが示されている。
- 参考スコア(独自算出の注目度): 31.064444347894565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become increasingly capable as tool-using agents, with benchmarks spanning diverse general agentic tasks. Yet rigorous evaluation of scientific tool use remains limited. In chemistry, recent agents can plan syntheses and invoke domain-specific tools, but evaluations often rely on curated demonstrations, expert assessment, or LLM-as-judge scoring rather than exact, judge-free ground truth. We address this gap with chemical procurement cost estimation, a practical task in which an agent must ground chemical identities, retrieve supplier quotes, select valid purchasable packs, normalize quantities, and compute cost from a reaction description. We introduce ChemCost, a benchmark of 1,427 evaluable reactions grounded to a frozen pricing snapshot covering 2,261 chemicals and 230,775 supplier quotes, supporting scalar scoring and stage-level diagnosis of grounding, retrieval, procurement, and arithmetic failures. To evaluate robustness, we further construct controlled noise-injected views that perturb chemical aliases, quantity expressions, missing fields, and input formatting. Experiments with frontier, open-weight, and chemistry-specialized LLM agents show that tool access is necessary but insufficient for solving the task. The strongest agents reach only 50.6% accuracy within 25% relative error on clean inputs and degrade substantially with realistic noise. Stage-level analysis further shows that failures arise from brittle parsing, ineffective evidence integration, invalid pack selection, and non-convergent tool use.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な汎用エージェントタスクにまたがるベンチマークによって、ツール使用エージェントとしてますます能力を高めている。
しかし、科学的ツールの使用の厳密な評価は依然として限られている。
化学において、最近のエージェントは、合成を計画し、ドメイン固有のツールを呼び出すことができるが、評価は、正確な、判断自由な基底真理ではなく、キュレートされた実演、専門家評価、LCM-as-judgeスコアに依存することが多い。
このギャップを化学調達コストの見積で解決し, エージェントは化学物質の同定, サプライヤの引用, 有効購入可能なパックの選択, 量正規化, および反応記述からの計算コストの計算を行なわなければならない。
我々は,2,261の化学物質と230,775のサプライヤの引用を含む凍結価格スナップショットに基づく1,427の評価可能な反応のベンチマークであるChemCostを紹介し,スカラースコアとグラウンド,検索,調達,演算失敗のステージレベル診断をサポートする。
さらに,ロバスト性を評価するために,化学エイリアス,量表現,フィールドの欠落,入力フォーマットを摂動する制御されたノイズ注入ビューを構築した。
フロンティア、オープンウェイト、化学特殊化LDMエージェントを用いた実験では、ツールアクセスは必要だが、タスクの解決には不十分であることが示されている。
最強のエージェントは、クリーンな入力の25%の相対誤差で50.6%の精度しか得られず、現実的なノイズで著しく劣化する。
ステージレベルの分析では、不安定な解析、有効でないエビデンスの統合、無効なパックの選択、非収束ツールの使用から障害が発生することが示されている。
関連論文リスト
- SUPERChem: A Multimodal Reasoning Benchmark in Chemistry [47.60627566673109]
SUPERChemは、500人の専門家による推論集約化学問題のベンチマークである。
それぞれの問題は、専門家によるソリューションパスとペアリングされます。
人間のベースラインに対する評価は40.3%の精度で、最高のパフォーマンスモデルであるGPT-5(High)でさえ38.5%にしか達していない。
論文 参考訳(メタデータ) (2025-12-01T04:46:35Z) - Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration [2.9496795797433073]
汎用大言語モデルを用いた分子推論のためのフレームワークを提案する。
本手法は, ユニークな原子識別子を用いて分子構造に対するチェーン・オブ・シント推論をアンカーする。
我々の研究は、理論的に基底付けられた合成データセットを生成する方法も提供する。
論文 参考訳(メタデータ) (2025-10-18T17:27:44Z) - MolErr2Fix: Benchmarking LLM Trustworthiness in Chemistry via Modular Error Detection, Localization, Explanation, and Revision [22.708008313748824]
LLM(Large Language Models)は、分子科学における潜在的な可能性を示すが、しばしば化学的に不正確な記述を生成する。
これにより、科学的応用における堅牢性と信頼性に関する重要な懸念が持ち上がる。
分子記述における誤り検出と訂正におけるLCMの評価を目的としたMollErr2Fixベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-26T05:43:45Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation [38.76977853056086]
Chemma-RCは、タスク固有の対話と条件生成を通じて有効な条件を識別するテキスト拡張マルチモーダルLLMである。
Chemma-RCは、複数のモダリティ(テキストコーパス、反応SMILES、反応グラフを含む)を共有埋め込みモジュールで整列させることで、化学反応の統一的な表現を学習する。
データセットのパフォーマンスベンチマークは、最適な条件を特定する上で高い精度を示し、最先端の手法よりも最大17%改善した。
論文 参考訳(メタデータ) (2024-07-21T12:27:26Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。