論文の概要: SELFIES and the future of molecular string representations
- arxiv url: http://arxiv.org/abs/2204.00056v1
- Date: Thu, 31 Mar 2022 19:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 02:58:30.510141
- Title: SELFIES and the future of molecular string representations
- Title(参考訳): SELFIESと分子文字列表現の将来
- Authors: Mario Krenn, Qianxiang Ai, Senja Barthel, Nessa Carson, Angelo Frei,
Nathan C. Frey, Pascal Friederich, Th\'eophile Gaudin, Alberto Alexander
Gayle, Kevin Maik Jablonka, Rafael F. Lameiro, Dominik Lemm, Alston Lo, Seyed
Mohamad Moosavi, Jos\'e Manuel N\'apoles-Duarte, AkshatKumar Nigam, Robert
Pollice, Kohulan Rajan, Ulrich Schatzschneider, Philippe Schwaller, Marta
Skreta, Berend Smit, Felix Strieth-Kalthoff, Chong Sun, Gary Tom, Guido Falk
von Rudorff, Andrew Wang, Andrew White, Adamo Young, Rose Yu, Al\'an
Aspuru-Guzik
- Abstract要約: 将来を考察し、分子列表現とそれらの機会と課題について論じる。
文字列は分子グラフを表現する一般的なツールであり、最も一般的な分子文字列表現であるSMILESは1980年代後半から化学情報学を駆使している。
100%堅牢性を保証する新しい分子の言語SELFIESが2020年に導入された。
- 参考スコア(独自算出の注目度): 10.432680476376595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) and machine learning (ML) are expanding in
popularity for broad applications to challenging tasks in chemistry and
materials science. Examples include the prediction of properties, the discovery
of new reaction pathways, or the design of new molecules. The machine needs to
read and write fluently in a chemical language for each of these tasks. Strings
are a common tool to represent molecular graphs, and the most popular molecular
string representation, SMILES, has powered cheminformatics since the late
1980s. However, in the context of AI and ML in chemistry, SMILES has several
shortcomings -- most pertinently, most combinations of symbols lead to invalid
results with no valid chemical interpretation. To overcome this issue, a new
language for molecules was introduced in 2020 that guarantees 100\% robustness:
SELFIES (SELF-referencIng Embedded Strings). SELFIES has since simplified and
enabled numerous new applications in chemistry. In this manuscript, we look to
the future and discuss molecular string representations, along with their
respective opportunities and challenges. We propose 16 concrete Future Projects
for robust molecular representations. These involve the extension toward new
chemical domains, exciting questions at the interface of AI and robust
languages and interpretability for both humans and machines. We hope that these
proposals will inspire several follow-up works exploiting the full potential of
molecular string representations for the future of AI in chemistry and
materials science.
- Abstract(参考訳): 人工知能(AI)と機械学習(ML)は、化学や材料科学における課題への幅広い応用のために人気が高まっている。
例えば、性質の予測、新しい反応経路の発見、新しい分子の設計などである。
マシンは、これらのタスクごとに、化学言語でフルーエントに読み書きする必要がある。
文字列は分子グラフを表現する一般的なツールであり、最も一般的な分子文字列表現であるSMILESは1980年代後半から化学情報学を駆使している。
しかし、化学におけるAIとMLの文脈では、SMILESにはいくつかの欠点がある。
この問題を解決するために、分子のための新しい言語が2020年に導入され、100\%の堅牢性を保証する: SELFIES (SELF-referencIng Embedded Strings)。
SELFIESはその後、化学における多くの新しい応用を可能にした。
この写本では, 将来を見据えて, 分子ひも表現とそれらの機会と課題について論じる。
我々は16の具体的な将来計画を提案する。
これらには、新しい化学領域への拡張、AIと堅牢な言語とのインターフェースにおけるエキサイティングな質問、人間と機械の両方の解釈可能性が含まれる。
これらの提案が、化学と材料科学におけるAIの未来に向けて、分子文字列表現の可能性を最大限に活用する、いくつかのフォローアップ作業を促すことを期待している。
関連論文リスト
- BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Language models in molecular discovery [2.874893537471256]
科学的言語モデル」は、小さな分子、タンパク質、またはポリマーで機能する。
化学において、言語モデルは分子発見サイクルの加速に寄与する。
我々は、貴重なオープンソースソフトウェア資産を強調し、科学言語モデリングの分野への参入障壁を低くする。
論文 参考訳(メタデータ) (2023-09-28T08:19:54Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - IMG2SMI: Translating Molecular Structure Images to Simplified
Molecular-input Line-entry System [29.946393284884778]
我々は、画像特徴抽出にDeep Residual Networksを利用するモデルIGG2SMIと、分子記述生成にエンコーダ・デコーダ・トランスフォーマ層を導入する。
IMG2SMIは、分子MACCS Fingerprint Tanimoto similarityによって測定された分子類似性予測において、OSRA系システムよりも163%優れていた。
また、分子記述生成のための8100万分子を含む新しい分子予測データセットもリリースした。
論文 参考訳(メタデータ) (2021-09-03T19:57:07Z) - Generative chemical transformer: attention makes neural machine learn
molecular geometric structures via text [0.180476943513092]
本稿では,化学用語の深い理解に基づいて,所望の条件を満たす分子を生成するニューラルマシンを提案する。
gctの注意機構は分子構造のより深い理解を可能にする。
GCTは、ある言語の化学規則と文法の両方を満たす非常に現実的な化学文字列を生成する。
論文 参考訳(メタデータ) (2021-02-27T13:34:36Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。