論文の概要: Group SELFIES: A Robust Fragment-Based Molecular String Representation
- arxiv url: http://arxiv.org/abs/2211.13322v1
- Date: Wed, 23 Nov 2022 22:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:49:38.872051
- Title: Group SELFIES: A Robust Fragment-Based Molecular String Representation
- Title(参考訳): グループSELFIES:ロバストフラグメントに基づく分子文字列表現
- Authors: Austin Cheng, Andy Cai, Santiago Miret, Gustavo Malkomes, Mariano
Phielipp, Al\'an Aspuru-Guzik
- Abstract要約: グループSELFIES(グループSELFIES)は、関数群またはサブ構造全体を表現するためにグループトークンを利用する分子文字列表現である。
グループSELFIESは、グループトークンを有効にすることでSELFIESの化学的堅牢性を保証するため、表現にさらなる柔軟性をもたらす。
当社のオープンソース実装であるGroup SELFIESはオンラインで利用可能です。
- 参考スコア(独自算出の注目度): 6.666211920811959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Group SELFIES, a molecular string representation that leverages
group tokens to represent functional groups or entire substructures while
maintaining chemical robustness guarantees. Molecular string representations,
such as SMILES and SELFIES, serve as the basis for molecular generation and
optimization in chemical language models, deep generative models, and
evolutionary methods. While SMILES and SELFIES leverage atomic representations,
Group SELFIES builds on top of the chemical robustness guarantees of SELFIES by
enabling group tokens, thereby creating additional flexibility to the
representation. Moreover, the group tokens in Group SELFIES can take advantage
of inductive biases of molecular fragments that capture meaningful chemical
motifs. The advantages of capturing chemical motifs and flexibility are
demonstrated in our experiments, which show that Group SELFIES improves
distribution learning of common molecular datasets. Further experiments also
show that random sampling of Group SELFIES strings improves the quality of
generated molecules compared to regular SELFIES strings. Our open-source
implementation of Group SELFIES is available online, which we hope will aid
future research in molecular generation and optimization.
- Abstract(参考訳): 本稿では,官能基やサブ構造全体の表現にグループトークンを利用する分子文字列表現であるグループSELFIESを紹介する。
SMILESやSELFIESのような分子文字列表現は、化学言語モデル、深層生成モデル、進化的手法における分子生成と最適化の基礎となる。
SMILESとSELFIESは原子表現を利用するが、SELFIESはSELFIESの化学的堅牢性を保証するために、グループトークンを有効にすることで、表現にさらなる柔軟性をもたらす。
さらに、グループSELFIESの群トークンは、意味のある化学モチーフを捉える分子断片の誘導バイアスを利用することができる。
化学モチーフと柔軟性を捉えた利点を実験で実証し,グループセルフィーが共通の分子データセットの分布学習を改善することを示した。
さらに,グループSELFIES文字列のランダムサンプリングにより,通常のSELFIES文字列と比較して生成分子の品質が向上することを示した。
グループセルフィーのオープンソース実装はオンラインで利用可能であり、将来の分子生成と最適化の研究に役立つことを期待しています。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - DecompOpt: Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization [49.85944390503957]
DecompOptは、制御可能・拡散モデルに基づく構造に基づく分子最適化手法である。
DecompOptは強いde novoベースラインよりも優れた特性を持つ分子を効率よく生成できることを示す。
論文 参考訳(メタデータ) (2024-03-07T02:53:40Z) - Field-based Molecule Generation [50.124402120798365]
本稿では,本手法の柔軟性が,一般的なポイントクラウド方式よりも重要な利点をもたらすことを示す。
我々は、薬物の安全性と有効性に欠落した分子特性である光学異性体(エナンチオマー)に取り組む。
論文 参考訳(メタデータ) (2024-02-24T17:13:58Z) - MolPLA: A Molecular Pretraining Framework for Learning Cores, R-Groups
and their Linker Joints [25.4071422065085]
MolPLAはグラフ事前学習フレームワークであり、基盤となる分解可能部分の分子を理解するために対照的な学習を利用する。
MolPLAは現在の最先端モデルに匹敵する予測可能性を示す。
MolPLAは、コアとRグループのサブ構造を区別し、分子の分解可能な領域を特定し、最適化シナリオの導出に寄与する。
論文 参考訳(メタデータ) (2024-01-30T06:20:08Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation [9.116670221263753]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。
フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。
従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2023-01-04T21:41:01Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。