論文の概要: A Scientific Reasoning Model for Organic Synthesis Procedure Generation
- arxiv url: http://arxiv.org/abs/2512.13668v1
- Date: Mon, 15 Dec 2025 18:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.822038
- Title: A Scientific Reasoning Model for Organic Synthesis Procedure Generation
- Title(参考訳): 有機合成プロセス生成のための科学的推論モデル
- Authors: Guoqing Liu, Junren Li, Zihan Zhao, Eray Inanc, Krzysztof Maziarz, Jose Garrido Torres, Victor Garcia Satorras, Shoko Ueda, Christopher M. Bishop, Marwin Segler,
- Abstract要約: 本稿では、精密な構造化実験手順を生成できる科学的推論言語モデルQFANGを提案する。
本稿では,大規模に化学知識を基盤としたチェーン・オブ・シントデータを生成する,化学誘導推論(CGR)フレームワークを提案する。
RLVR(Reinforcement Learning from Verifiable Rewards)を応用して、手続き精度をさらに向上する。
- 参考スコア(独自算出の注目度): 12.609346156252393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving computer-aided synthesis planning is essential for enabling fully automated, robot-assisted synthesis workflows and improving the efficiency of drug discovery. A key challenge, however, is bridging the gap between computational route design and practical laboratory execution, particularly the accurate prediction of viable experimental procedures for each synthesis step. In this work, we present QFANG, a scientific reasoning language model capable of generating precise, structured experimental procedures directly from reaction equations, with explicit chain-of-thought reasoning. To develop QFANG, we curated a high-quality dataset comprising 905,990 chemical reactions paired with structured action sequences, extracted and processed from patent literature using large language models. We introduce a Chemistry-Guided Reasoning (CGR) framework that produces chain-of-thought data grounded in chemical knowledge at scale. The model subsequently undergoes supervised fine-tuning to elicit complex chemistry reasoning. Finally, we apply Reinforcement Learning from Verifiable Rewards (RLVR) to further enhance procedural accuracy. Experimental results demonstrate that QFANG outperforms advanced general-purpose reasoning models and nearest-neighbor retrieval baselines, measured by traditional NLP similarity metrics and a chemically aware evaluator using an LLM-as-a-judge. Moreover, QFANG generalizes to certain out-of-domain reaction classes and adapts to variations in laboratory conditions and user-specific constraints. We believe that QFANG's ability to generate high-quality synthesis procedures represents an important step toward bridging the gap between computational synthesis planning and fully automated laboratory synthesis.
- Abstract(参考訳): コンピュータ支援合成計画の解決は、完全自動化されたロボット支援合成ワークフローの実現と、薬物発見の効率向上に不可欠である。
しかし、重要な課題は、計算経路設計と実用的な実験室実行のギャップを埋めることである。
そこで本研究では,反応方程式から直接正確に構造化された実験手順を生成できる科学的推論言語モデルQFANGについて述べる。
QFANGを開発するために,905,990個の化学反応と構造化されたアクションシーケンスを組み合わせ,大規模言語モデルを用いて特許文献から抽出,処理した高品質なデータセットをキュレートした。
本稿では,大規模に化学知識を基盤としたチェーン・オブ・シントデータを生成する,化学誘導推論(CGR)フレームワークを提案する。
このモデルはその後、複雑な化学推論を引き出すための微調整を監督されている。
最後に,RLVR(Reinforcement Learning from Verifiable Rewards)を用いて手続き精度をさらに向上する。
実験の結果、QFANGは従来のNLP類似度測定値とLCM-as-a-judgeを用いた化学認識評価器により、高度な汎用推論モデルと最寄りの検索ベースラインより優れていた。
さらに、QFANGは特定のドメイン外の反応クラスに一般化し、実験条件やユーザ固有の制約に適応する。
我々は,QFANGが高品質な合成手順を生成する能力は,計算合成計画と完全自動合成のギャップを埋める重要なステップであると考えている。
関連論文リスト
- ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - AutoChemSchematic AI: Agentic Physics-Aware Automation for Chemical Manufacturing Scale-Up [2.5875933818780363]
現在のAIシステムは、重要なエンジニアリングスキーマを確実に生成することはできない。
産業用PFDとPIDの自動生成のためのクローズドループ物理対応フレームワークを提案する。
本研究では,本フレームワークが高忠実度でシミュレータ検証されたプロセス記述を生成することを示す。
論文 参考訳(メタデータ) (2025-05-30T13:32:00Z) - Validation of the Scientific Literature via Chemputation Augmented by Large Language Models [0.0]
化学計算は、普遍的な記号言語を用いて実験を行うための化学ロボットをプログラミングするプロセスである。
大規模言語モデル(LLM)は、自然言語処理、ロボット制御、最近では化学など、様々な分野において顕著な能力を発揮している。
本稿では,合成文芸手順の自動検証を目的としたLCMベースの化学研究エージェントワークフローを提案する。
論文 参考訳(メタデータ) (2024-10-08T21:31:42Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [55.30328162764292]
Chemist-Xは、化学合成における反応条件最適化(RCO)タスクを自動化する包括的なAIエージェントである。
このエージェントは、検索強化世代(RAG)技術とAI制御のウェットラブ実験を実行する。
我々の自動ウェットラブ実験の結果は、LLMが制御するエンドツーエンドの操作を、ロボットに人間がいない状態で行うことで達成され、Chemist-Xの自動運転実験における能力が証明された。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。