論文の概要: Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation
- arxiv url: http://arxiv.org/abs/2407.15141v1
- Date: Sun, 21 Jul 2024 12:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:08:59.407874
- Title: Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation
- Title(参考訳): 化学反応条件勧告のためのテキスト強化多モードLCM
- Authors: Yu Zhang, Ruijie Yu, Kaipeng Zeng, Ding Li, Feng Zhu, Xiaokang Yang, Yaohui Jin, Yanyan Xu,
- Abstract要約: MM-RCRは、化学反応レコメンデーション(RCR)のためのSMILES、反応グラフ、テキストコーパスから統一的な反応表現を学習するテキスト拡張マルチモーダルLLMである。
この結果から,MM-RCRは2つのオープンベンチマークデータセット上で最先端の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 50.639325453203504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-throughput reaction condition (RC) screening is fundamental to chemical synthesis. However, current RC screening suffers from laborious and costly trial-and-error workflows. Traditional computer-aided synthesis planning (CASP) tools fail to find suitable RCs due to data sparsity and inadequate reaction representations. Nowadays, large language models (LLMs) are capable of tackling chemistry-related problems, such as molecule design, and chemical logic Q\&A tasks. However, LLMs have not yet achieved accurate predictions of chemical reaction conditions. Here, we present MM-RCR, a text-augmented multimodal LLM that learns a unified reaction representation from SMILES, reaction graphs, and textual corpus for chemical reaction recommendation (RCR). To train MM-RCR, we construct 1.2 million pair-wised Q\&A instruction datasets. Our experimental results demonstrate that MM-RCR achieves state-of-the-art performance on two open benchmark datasets and exhibits strong generalization capabilities on out-of-domain (OOD) and High-Throughput Experimentation (HTE) datasets. MM-RCR has the potential to accelerate high-throughput condition screening in chemical synthesis.
- Abstract(参考訳): 高スループット反応条件 (RC) スクリーニングは化学合成の基礎となる。
しかし、現在のRCスクリーニングは、面倒でコストのかかる試行錯誤のワークフローに悩まされている。
従来のコンピュータ支援合成計画(CASP)ツールは、データ空間と不適切な反応表現のため、適切なRCを見つけることができない。
現在、大規模言語モデル(LLM)は分子設計や化学論理Q\&Aタスクといった化学関連問題に取り組むことができる。
しかし、LSMは化学反応条件の正確な予測をまだ達成していない。
本稿では,SMILES,反応グラフ,化学反応レコメンデーションのためのテキストコーパスから統一的な反応表現を学習するマルチモーダルLLMであるMM-RCRについて述べる。
MM-RCRを訓練するために、120万のペアワイドQ\&A命令データセットを構築した。
実験の結果、MM-RCRは2つのオープンなベンチマークデータセット上で最先端のパフォーマンスを達成し、ドメイン外(OOD)とハイスループ実験(HTE)データセット上で強力な一般化能力を示すことが示された。
MM-RCRは化学合成における高スループット条件スクリーニングを加速する可能性がある。
関連論文リスト
- Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
本稿では,様々な有機反応関連タスクに適した新しい化学反応表現学習モデルであるモデルネームを紹介する。
反応物質と生成物との原子対応を統合することにより、反応中に生じる分子変換を識別し、反応機構の理解を深める。
反応条件を化学反応表現に組み込むアダプタ構造を設計し、様々な反応条件を処理し、様々なデータセットや下流タスク、例えば反応性能予測に適応できるようにした。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - log-RRIM: Yield Prediction via Local-to-global Reaction Representation Learning and Interaction Modeling [6.310759215182946]
log-RRIMは、化学反応の収量を予測するために設計された革新的なグラフトランスフォーマーベースのフレームワークである。
本手法は,一意の局所的-グローバル的反応表現学習戦略を実装している。
反応剤-試薬相互作用の高度なモデリングと小さな分子断片への感受性により、化学合成における反応計画と最適化のための貴重なツールとなる。
論文 参考訳(メタデータ) (2024-10-20T18:35:56Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - Contextual Molecule Representation Learning from Chemical Reaction
Knowledge [24.501564702095937]
本稿では,共通化学における原子結合規則をうまく利用した自己教師型学習フレームワークREMOを紹介する。
REMOは、文献における170万の既知の化学反応に関するグラフ/トランスフォーマーエンコーダを事前訓練する。
論文 参考訳(メタデータ) (2024-02-21T12:58:40Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [57.70772230913099]
Chemist-Xは、検索増強生成(RAG)技術を用いた化学合成において、反応条件レコメンデーション(RCR)タスクを自動化する。
Chemist-Xはオンラインの分子データベースを尋問し、最新の文献データベースから重要なデータを蒸留する。
Chemist-Xは化学者の作業量を大幅に減らし、より根本的で創造的な問題に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - ReLM: Leveraging Language Models for Enhanced Chemical Reaction
Prediction [26.342666819515774]
ReLMは、言語モデル(LM)に符号化された化学知識を活用してグラフニューラルネットワーク(GNN)を支援するフレームワークである。
実験結果から,ReLMは各種化学反応データセットにおける最先端GNN法の性能向上を実証した。
論文 参考訳(メタデータ) (2023-10-20T15:33:23Z) - Root-aligned SMILES for Molecular Retrosynthesis Prediction [31.818364437526885]
再合成予測は有機合成の基本的な問題であり、標的分子の合成に使用できる前駆体分子を発見することが目的である。
既存の計算逆合成手法の一般的なパラダイムは、列から列への変換問題として再合成予測を定式化する。
本稿では,製品と反応するSMILES間の一対一マッピングを厳密に整列するルート整列SMILES(R-SMILES)を提案する。
論文 参考訳(メタデータ) (2022-03-22T03:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。