論文の概要: Group SELFIES: A Robust Fragment-Based Molecular String Representation
- arxiv url: http://arxiv.org/abs/2211.13322v1
- Date: Wed, 23 Nov 2022 22:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:49:38.872051
- Title: Group SELFIES: A Robust Fragment-Based Molecular String Representation
- Title(参考訳): グループSELFIES:ロバストフラグメントに基づく分子文字列表現
- Authors: Austin Cheng, Andy Cai, Santiago Miret, Gustavo Malkomes, Mariano
Phielipp, Al\'an Aspuru-Guzik
- Abstract要約: グループSELFIES(グループSELFIES)は、関数群またはサブ構造全体を表現するためにグループトークンを利用する分子文字列表現である。
グループSELFIESは、グループトークンを有効にすることでSELFIESの化学的堅牢性を保証するため、表現にさらなる柔軟性をもたらす。
当社のオープンソース実装であるGroup SELFIESはオンラインで利用可能です。
- 参考スコア(独自算出の注目度): 6.666211920811959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Group SELFIES, a molecular string representation that leverages
group tokens to represent functional groups or entire substructures while
maintaining chemical robustness guarantees. Molecular string representations,
such as SMILES and SELFIES, serve as the basis for molecular generation and
optimization in chemical language models, deep generative models, and
evolutionary methods. While SMILES and SELFIES leverage atomic representations,
Group SELFIES builds on top of the chemical robustness guarantees of SELFIES by
enabling group tokens, thereby creating additional flexibility to the
representation. Moreover, the group tokens in Group SELFIES can take advantage
of inductive biases of molecular fragments that capture meaningful chemical
motifs. The advantages of capturing chemical motifs and flexibility are
demonstrated in our experiments, which show that Group SELFIES improves
distribution learning of common molecular datasets. Further experiments also
show that random sampling of Group SELFIES strings improves the quality of
generated molecules compared to regular SELFIES strings. Our open-source
implementation of Group SELFIES is available online, which we hope will aid
future research in molecular generation and optimization.
- Abstract(参考訳): 本稿では,官能基やサブ構造全体の表現にグループトークンを利用する分子文字列表現であるグループSELFIESを紹介する。
SMILESやSELFIESのような分子文字列表現は、化学言語モデル、深層生成モデル、進化的手法における分子生成と最適化の基礎となる。
SMILESとSELFIESは原子表現を利用するが、SELFIESはSELFIESの化学的堅牢性を保証するために、グループトークンを有効にすることで、表現にさらなる柔軟性をもたらす。
さらに、グループSELFIESの群トークンは、意味のある化学モチーフを捉える分子断片の誘導バイアスを利用することができる。
化学モチーフと柔軟性を捉えた利点を実験で実証し,グループセルフィーが共通の分子データセットの分布学習を改善することを示した。
さらに,グループSELFIES文字列のランダムサンプリングにより,通常のSELFIES文字列と比較して生成分子の品質が向上することを示した。
グループセルフィーのオープンソース実装はオンラインで利用可能であり、将来の分子生成と最適化の研究に役立つことを期待しています。
関連論文リスト
- Field-based Molecule Generation [50.124402120798365]
本稿では,本手法の柔軟性が,一般的なポイントクラウド方式よりも重要な利点をもたらすことを示す。
我々は、薬物の安全性と有効性に欠落した分子特性である光学異性体(エナンチオマー)に取り組む。
論文 参考訳(メタデータ) (2024-02-24T17:13:58Z) - MolPLA: A Molecular Pretraining Framework for Learning Cores, R-Groups
and their Linker Joints [25.4071422065085]
MolPLAはグラフ事前学習フレームワークであり、基盤となる分解可能部分の分子を理解するために対照的な学習を利用する。
MolPLAは現在の最先端モデルに匹敵する予測可能性を示す。
MolPLAは、コアとRグループのサブ構造を区別し、分子の分解可能な領域を特定し、最適化シナリオの導出に寄与する。
論文 参考訳(メタデータ) (2024-01-30T06:20:08Z) - Adjustable Molecular Representation for Unified Pre-training Strategy [6.5368865085435885]
我々は,統一事前学習戦略のための適応可能な分子表現のための大規模分子モデルAdaMRを提案する。
AdaMRは粒度調整可能な分子エンコーダを使用し、原子とサブ構造の両方で分子表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-28T10:53:17Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework
Based on Image and Graph Structures [2.792611146246963]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - From molecules to scaffolds to functional groups: building
context-dependent molecular representation via multi-channel learning [10.756149299304981]
本稿では分子構造における構造的階層の知識を活用する新しい学習フレームワークを提案する。
様々な分子特性ベンチマークの競合性能を示し、最先端の結果を確立する。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - t-SMILES: A Scalable Fragment-based Molecular Representation Framework
for De Novo Molecule Generation [9.660168004209712]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。
フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。
従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2023-01-04T21:41:01Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。