論文の概要: A Transformer Based Generative Chemical Language AI Model for Structural Elucidation of Organic Compounds
- arxiv url: http://arxiv.org/abs/2410.14719v2
- Date: Fri, 25 Oct 2024 02:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:33:15.307126
- Title: A Transformer Based Generative Chemical Language AI Model for Structural Elucidation of Organic Compounds
- Title(参考訳): 変換器を用いた生成化学言語AIモデルによる有機化合物の構造解明
- Authors: Xiaofeng Tan,
- Abstract要約: 本稿では,概念変換器を用いた生成化学言語人工知能(AI)モデルを提案する。
我々のモデルはエンコーダ・デコーダアーキテクチャと自己保持機構を用いて、最も可能性の高い化学構造を直接生成する。
現代のCPUでは、29個の原子を持つ分子をわずか数秒で構造解明し、83%の精度でトップ15を達成している。
- 参考スコア(独自算出の注目度): 1.5628118690186594
- License:
- Abstract: For over half a century, computer-aided structural elucidation systems (CASE) for organic compounds have relied on complex expert systems with explicitly programmed algorithms. These systems are often computationally inefficient for complex compounds due to the vast chemical structural space that must be explored and filtered. In this study, we present a proof-of-concept transformer based generative chemical language artificial intelligence (AI) model, an innovative end-to-end architecture designed to replace the logic and workflow of the classic CASE framework for ultra-fast and accurate spectroscopic-based structural elucidation. Our model employs an encoder-decoder architecture and self-attention mechanisms, similar to those in large language models, to directly generate the most probable chemical structures that match the input spectroscopic data. Trained on ~ 102k IR, UV, and 1H NMR spectra, it performs structural elucidation of molecules with up to 29 atoms in just a few seconds on a modern CPU, achieving a top-15 accuracy of 83%. This approach demonstrates the potential of transformer based generative AI to accelerate traditional scientific problem-solving processes. The model's ability to iterate quickly based on new data highlights its potential for rapid advancements in structural elucidation.
- Abstract(参考訳): 半世紀以上にわたって、有機化合物のコンピュータ支援構造解明システム(CASE)は、明示的にプログラムされたアルゴリズムを持つ複雑な専門家システムに依存してきた。
これらのシステムは、探索とフィルタリングが必要とされる広大な化学構造空間のため、複雑な化合物に対して計算的に非効率であることが多い。
本研究では,超高速かつ高精度な分光に基づく構造解明のための古典的なCASEフレームワークの論理とワークフローを置き換えるために,概念変換器を用いた生成化学言語人工知能(AI)モデルを提案する。
提案モデルでは,エンコーダ・デコーダアーキテクチャと,大規模言語モデルと同様の自己保持機構を用いて,入力分光データに適合する最も確率の高い化学構造を直接生成する。
約102kのIR、UV、および1HのNMRスペクトルで訓練され、現代のCPU上でわずか数秒で29個の原子を持つ分子の構造的解明を行い、最高15個の精度が83%に達する。
このアプローチは、従来の科学的問題解決プロセスを加速するトランスフォーマーベースの生成AIの可能性を示している。
モデルが新しいデータに基づいてすばやく反復する能力は、構造解明の急速な進歩の可能性を浮き彫りにしている。
関連論文リスト
- GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - Generative Hierarchical Materials Search [91.93125016916463]
結晶構造の制御可能な生成のための生成階層材料探索(GenMS)を提案する。
GenMSは(1)高レベル自然言語を入力とし、結晶に関する中間テキスト情報を生成する言語モデルからなる。
GenMSはまた、生成された結晶構造から特性(たとえば生成エネルギー)を予測するためにグラフニューラルネットワークを使用する。
論文 参考訳(メタデータ) (2024-09-10T17:51:28Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - Accurate and efficient structure elucidation from routine one-dimensional NMR spectra using multitask machine learning [1.2754578699685275]
本稿では,その1D 1Hおよび13C NMRスペクトルに基づいて未知化合物の分子構造を予測する機械学習フレームワークを提案する。
この機能を畳み込みニューラルネットワーク(CNN)に統合することで、高速かつ高精度なスペクトルから構造を予測するエンドツーエンドモデルを構築します。
論文 参考訳(メタデータ) (2024-08-15T17:37:36Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [57.70772230913099]
Chemist-Xは、検索増強生成(RAG)技術を用いた化学合成において、反応条件レコメンデーション(RCR)タスクを自動化する。
Chemist-Xはオンラインの分子データベースを尋問し、最新の文献データベースから重要なデータを蒸留する。
Chemist-Xは化学者の作業量を大幅に減らし、より根本的で創造的な問題に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - Atomic structure generation from reconstructing structural fingerprints [1.2128971613239876]
本稿では、原子中心対称性関数を表現として、条件付き変分オートエンコーダを生成モデルとして、エンドツーエンド構造生成手法を提案する。
我々は、概念実証として、サブナノメーターPtナノ粒子の新規で有効な原子構造を生成することに成功した。
論文 参考訳(メタデータ) (2022-07-27T00:42:59Z) - Transferring Chemical and Energetic Knowledge Between Molecular Systems
with Machine Learning [5.27145343046974]
本稿では,単純な分子システムから得られた知識をより複雑なものに伝達するための新しい手法を提案する。
我々は、高低自由エネルギー状態の分類に焦点をあてる。
以上の結果より, トリアラニンからデカアラニン系への移行学習において, 0.92 の顕著な AUC が得られた。
論文 参考訳(メタデータ) (2022-05-06T16:21:00Z) - Geometric Transformer for End-to-End Molecule Properties Prediction [92.28929858529679]
分子特性予測のためのトランスフォーマーに基づくアーキテクチャを導入し,分子の形状を捉える。
分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。
論文 参考訳(メタデータ) (2021-10-26T14:14:40Z) - Artificial Intelligence based Autonomous Molecular Design for Medical
Therapeutic: A Perspective [9.371378627575883]
ドメイン認識機械学習(ML)モデルは、小さな分子治療設計の加速にますます採用されている。
我々は、各コンポーネントによって達成された最新のブレークスルーと、このような自律型AIとMLワークフローをどのように実現できるかを提示する。
論文 参考訳(メタデータ) (2021-02-10T00:43:46Z) - Hierarchical, rotation-equivariant neural networks to select structural
models of protein complexes [6.092214762701847]
タンパク質複合体の正確なモデルを特定するために,全ての原子の3次元位置から直接学習する機械学習手法を提案する。
我々のネットワークは、考えられるモデルの大きな集合のうち、正確な構造モデルの同定を大幅に改善する。
論文 参考訳(メタデータ) (2020-06-05T20:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。