論文の概要: oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
- arxiv url: http://arxiv.org/abs/2510.07731v1
- Date: Thu, 09 Oct 2025 03:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.835124
- Title: oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning
- Title(参考訳): oMeBench: 有機メカニズムの解明と推論におけるLCMのロバストベンチマークを目指して
- Authors: Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji,
- Abstract要約: 有機化学における有機機構推論のための,最初の大規模で専門家によるベンチマークであるoMeBenchを紹介する。
また,ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークoMeSを提案する。
- 参考スコア(独自算出の注目度): 44.36582860924775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Although large language models (LLMs) have shown promise in understanding chemical tasks such as synthesis design, it is unclear to what extent this reflects genuine chemical reasoning capabilities, i.e., the ability to generate valid intermediates, maintain chemical consistency, and follow logically coherent multi-step pathways. We address this by introducing oMeBench, the first large-scale, expert-curated benchmark for organic mechanism reasoning in organic chemistry. It comprises over 10,000 annotated mechanistic steps with intermediates, type labels, and difficulty ratings. Furthermore, to evaluate LLM capability more precisely and enable fine-grained scoring, we propose oMeS, a dynamic evaluation framework that combines step-level logic and chemical similarity. We analyze the performance of state-of-the-art LLMs, and our results show that although current models display promising chemical intuition, they struggle with correct and consistent multi-step reasoning. Notably, we find that using prompting strategy and fine-tuning a specialist model on our proposed dataset increases performance by 50% over the leading closed-source model. We hope that oMeBench will serve as a rigorous foundation for advancing AI systems toward genuine chemical reasoning.
- Abstract(参考訳): 有機反応機構は、反応物質が中間体と生成物を形成する段階的な塩基性反応であり、化学反応性を理解し、新しい分子や反応を設計するための基礎となる。
大きな言語モデル(LLM)は、合成設計のような化学的なタスクを理解することを約束しているが、それが真の化学推論能力、すなわち、有効な中間体を生成し、化学的整合性を維持し、論理的に一貫性のある多段階経路に従う能力をどのように反映しているかは不明である。
有機化学における有機機構推論のための,最初の大規模で専門家によるベンチマークであるoMeBenchを導入することで,この問題に対処する。
中間語、タイプラベル、難易度評価を含む1万以上の注釈付きメカニスティックステップで構成されている。
さらに, ステップレベルの論理と化学類似性を組み合わせた動的評価フレームワークoMeSを提案する。
我々は最先端のLCMの性能を解析し、現在のモデルでは有望な化学直観を示すが、正確で一貫した多段階の推論に苦慮していることを示す。
特に、プロンプト戦略を用いて、提案したデータセットのスペシャリストモデルを微調整することで、主要なクローズドソースモデルよりも50%パフォーマンスが向上することがわかった。
私たちは、oMeBenchが真の化学的推論に向けてAIシステムを前進させるための厳格な基盤となることを願っている。
関連論文リスト
- ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge [14.6026550444088]
この研究は化学の特定の分野に焦点をあて、ケミカル・リアソナー LLM, ChemDFM-R を開発した。
まず、原子化知識点の包括的データセットを構築し、モデルの基本原理と化学の論理構造に対する理解を深める。
多様な化学ベンチマークの実験により、ChemDFM-Rは、解釈可能で合理的な出力を提供しながら、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-07-29T16:40:49Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations [43.623140005091535]
我々は、分子構造理解を算術に着想を得た演算でブリッジする推論フレームワークであるChemCoTBenchを紹介する。
ChemCoTBenchは、化学的問題解決を透明でステップバイステップの推論に形式化する。
分子特性最適化と化学反応予測という2つの高影響タスクのモデルを評価する。
論文 参考訳(メタデータ) (2025-05-27T15:15:44Z) - Chemical reasoning in LLMs unlocks strategy-aware synthesis planning and reaction mechanism elucidation [0.3065062372337749]
大規模言語モデル(LLM)は、化学分析を可能にする強力なツールとして機能する。
化学戦略の評価と探索アルゴリズムを化学的に意味のある解へと導く能力を活用している。
我々のアプローチは、コンピュータ支援化学の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-03-11T15:27:17Z) - Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
RAlignは、様々な有機反応関連タスクのための新しい化学反応表現学習モデルである。
反応物質と生成物との原子対応を統合することにより、反応中に起こる分子変換を識別する。
モデルが重要な機能群に集中できるように,反応中心認識型アテンション機構を導入する。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。