論文の概要: SELFormer: Molecular Representation Learning via SELFIES Language Models
- arxiv url: http://arxiv.org/abs/2304.04662v2
- Date: Thu, 25 May 2023 09:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 20:27:15.001324
- Title: SELFormer: Molecular Representation Learning via SELFIES Language Models
- Title(参考訳): SELFormer:SELFIES言語モデルによる分子表現学習
- Authors: Atakan Y\"uksel, Erva Ulusoy, Atabey \"Unl\"u, Tunca Do\u{g}an
- Abstract要約: 本研究では,トランスアーキテクチャに基づく化学言語モデルであるSELFormerを提案する。
SELFormerは200万の薬物類似化合物で事前訓練され、様々な分子特性予測タスクのために微調整されている。
性能評価の結果,SELFormerはグラフ学習に基づくアプローチやSMILESに基づく化学言語モデルなど,競合するすべての手法より優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated computational analysis of the vast chemical space is critical for
numerous fields of research such as drug discovery and material science.
Representation learning techniques have recently been employed with the primary
objective of generating compact and informative numerical expressions of
complex data. One approach to efficiently learn molecular representations is
processing string-based notations of chemicals via natural language processing
(NLP) algorithms. Majority of the methods proposed so far utilize SMILES
notations for this purpose; however, SMILES is associated with numerous
problems related to validity and robustness, which may prevent the model from
effectively uncovering the knowledge hidden in the data. In this study, we
propose SELFormer, a transformer architecture-based chemical language model
that utilizes a 100% valid, compact and expressive notation, SELFIES, as input,
in order to learn flexible and high-quality molecular representations.
SELFormer is pre-trained on two million drug-like compounds and fine-tuned for
diverse molecular property prediction tasks. Our performance evaluation has
revealed that, SELFormer outperforms all competing methods, including graph
learning-based approaches and SMILES-based chemical language models, on
predicting aqueous solubility of molecules and adverse drug reactions. We also
visualized molecular representations learned by SELFormer via dimensionality
reduction, which indicated that even the pre-trained model can discriminate
molecules with differing structural properties. We shared SELFormer as a
programmatic tool, together with its datasets and pre-trained models. Overall,
our research demonstrates the benefit of using the SELFIES notations in the
context of chemical language modeling and opens up new possibilities for the
design and discovery of novel drug candidates with desired features.
- Abstract(参考訳): 広大な化学空間の自動計算解析は、創薬や物質科学などの多くの研究分野において重要である。
近年,複雑なデータのコンパクトかつ情報的な数値表現を生成するために,表現学習技術が採用されている。
分子表現を効率的に学習する一つのアプローチは、自然言語処理(nlp)アルゴリズムによる文字列に基づく化学物質の表記法である。
この目的のために提案した手法の多くはSMILES表記を用いるが、SMILESは妥当性とロバスト性に関連する多くの問題と関連付けられており、モデルがデータに隠された知識を効果的に発見するのを防ぐことができる。
本研究では,100%有効でコンパクトで表現力に富んだセルフィーを入力として使用し,柔軟で高品質な分子表現を学習する,トランスフォーマアーキテクチャに基づく化学言語モデルであるselformerを提案する。
SELFormerは200万の薬物類似化合物で事前訓練され、様々な分子特性予測タスクのために微調整されている。
SELFormerは, グラフ学習に基づくアプローチやSMILESに基づく化学言語モデル, 分子の水溶性, 薬物反応の予測など, 競合するすべての手法より優れていた。
また,SELFormerで学習した分子表現を次元還元により可視化し,事前学習モデルでも異なる構造特性を持つ分子を識別できることを示した。
私たちはSELFormerを、そのデータセットと事前トレーニングされたモデルとともに、プログラムツールとして共有しました。
全体としては,化学言語モデリングの文脈でセルフィー表記を使うことの利点を実証し,望ましい機能を持つ新規薬物候補の設計と発見の新たな可能性を開く。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models [0.0]
SMILES言語を対象とする13種のケミカル特異的トークン化剤を系統的に評価した。
I>smirk/i>と<i>smirk-gpe/i>の2つの新しいトークンを導入し,OpenSMILES仕様の全体を表す。
論文 参考訳(メタデータ) (2024-09-19T02:36:04Z) - Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。
本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T11:37:19Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Predicting Chemical Properties using Self-Attention Multi-task Learning
based on SMILES Representation [0.0]
本研究では,変圧器変圧器モデルの構造的差異について検討し,新しい自己注意モデルを提案する。
不均衡な化学データセットを用いたマルチタスク学習環境において,自己認識モジュールの表現学習性能を評価した。
論文 参考訳(メタデータ) (2020-10-19T09:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。