論文の概要: ChemBART: A Pre-trained BART Model Assisting Organic Chemistry Analysis
- arxiv url: http://arxiv.org/abs/2601.02915v1
- Date: Tue, 06 Jan 2026 10:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.902008
- Title: ChemBART: A Pre-trained BART Model Assisting Organic Chemistry Analysis
- Title(参考訳): ChemBART: 有機化学分析を支援する事前学習型BARTモデル
- Authors: Kenan Li, Yijian Zhang, Jin Wang, Haipeng Gan, Zeying Sun, Xiaoguang Lei, Hao Dong,
- Abstract要約: ChemBARTはSMILESベースの大規模言語モデルで、化学反応で事前訓練されている。
ChemBARTは、前駆体/試薬生成、温度収率回帰、分子特性分類、ポリシーと値関数の最適化など、様々な化学的問題を効果的に解決する。
本研究は, 反応中心の事前学習の能力を検証するとともに, 完全合成計画サイクルの進展におけるChemBARTの幅広い有用性を示すものである。
- 参考スコア(独自算出の注目度): 9.010003142738338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated transformative potential across diverse fields. While LLMs have been applied to molecular simplified molecular input line entry system (SMILES) in computer-aided synthesis planning (CASP), existing methodologies typically address single tasks, such as precursor prediction. We introduce ChemBART, a SMILES-based LLM pre-trained on chemical reactions, which enables a unified model for multiple downstream chemical tasks--achieving the paradigm of "one model, one pre-training, multiple tasks." By leveraging outputs from a mask-filling pre-training task on reaction expressions, ChemBART effectively solves a variety of chemical problems, including precursor/reagent generation, temperature-yield regression, molecular property classification, and optimizing the policy and value functions within a reinforcement learning framework, integrated with Monte Carlo tree search for multi-step synthesis route design. Unlike single-molecule pre-trained LLMs constrained to specific applications, ChemBART addresses broader chemical challenges and integrates them for comprehensive synthesis planning. Crucially, ChemBART-designed multi-step synthesis routes and reaction conditions directly inspired wet-lab validation, which confirmed shorter pathways with ~30% yield improvement over literature benchmarks. Our work validates the power of reaction-focused pre-training and showcases the broad utility of ChemBART in advancing the complete synthesis planning cycle.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な分野にまたがるトランスフォーメーションの可能性を示している。
LLMはコンピュータ支援合成計画(CASP)における分子簡易分子インプットラインエントリシステム(SMILES)に応用されているが、既存の手法は前駆体予測のような単一タスクに対処する。
我々は,SMILES をベースとした LLM である ChemBART を導入し,複数の下流化学タスクの統一モデルを実現し,"1つのモデル,1つの事前学習,複数のタスク" のパラダイムを実現する。
マスク充填プレトレーニングタスクの反応表現の出力を活用することで、ChemBARTは、前駆体/試薬生成、温度収率回帰、分子特性分類、強化学習フレームワーク内のポリシーと値関数の最適化など、多段階合成経路設計のためのモンテカルロ木探索と統合された様々な化学的問題を効果的に解決する。
特定の用途に制限された単一分子事前訓練LDMとは異なり、ChemBARTはより広範な化学的課題に対処し、総合的な合成計画のためにそれらを統合する。
重要なことに、ChemBARTが設計した多段階合成経路と反応条件は湿式検証を直接刺激し、文献ベンチマークよりも30%の収率改善の短い経路が確認された。
本研究は, 反応中心の事前学習の能力を検証するとともに, 完全合成計画サイクルの進展におけるChemBARTの幅広い有用性を示すものである。
関連論文リスト
- Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration [2.9496795797433073]
汎用大言語モデルを用いた分子推論のためのフレームワークを提案する。
本手法は, ユニークな原子識別子を用いて分子構造に対するチェーン・オブ・シント推論をアンカーする。
我々の研究は、理論的に基底付けられた合成データセットを生成する方法も提供する。
論文 参考訳(メタデータ) (2025-10-18T17:27:44Z) - ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - LLM-Augmented Chemical Synthesis and Design Decision Programs [18.41721617026997]
反応経路を符号化する効率的な手法を導入し,新しい経路レベルの探索戦略を提案する。
我々は,LLMを付加したアプローチがレトロシンセプション計画に優れており,より広範な分子設計の課題に自然に及んでいることを示す。
論文 参考訳(メタデータ) (2025-05-11T15:43:00Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - PRESTO: Progressive Pretraining Enhances Synthetic Chemistry Outcomes [33.293741487835824]
MLLM(Multimodal Large Language Models)は、様々な科学分野において普及している。
しかし、現在のアプローチは化学反応を理解する上での複数の分子グラフ相互作用の重要な役割を無視することが多い。
PRESTOは、事前学習戦略とデータセット構成の包括的なベンチマークを統合することで、分子-テキストのモダリティギャップを橋渡しする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-19T03:59:46Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [55.30328162764292]
Chemist-Xは、化学合成における反応条件最適化(RCO)タスクを自動化する包括的なAIエージェントである。
このエージェントは、検索強化世代(RAG)技術とAI制御のウェットラブ実験を実行する。
我々の自動ウェットラブ実験の結果は、LLMが制御するエンドツーエンドの操作を、ロボットに人間がいない状態で行うことで達成され、Chemist-Xの自動運転実験における能力が証明された。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。