論文の概要: Tokenizing 3D Molecule Structure with Quantized Spherical Coordinates
- arxiv url: http://arxiv.org/abs/2412.01564v1
- Date: Mon, 02 Dec 2024 14:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:41:32.501518
- Title: Tokenizing 3D Molecule Structure with Quantized Spherical Coordinates
- Title(参考訳): 量子化された球面座標を用いた3次元分子構造の創製
- Authors: Kaiyuan Gao, Yusong Wang, Haoxiang Guan, Zun Wang, Qizhi Pei, John E. Hopcroft, Kun He, Lijun Wu,
- Abstract要約: Mol-StrucTokは、3次元分子構造をトークン化する新しい方法である。
球面座標系において局所的な原子座標を抽出して3次元分子の線記法を設計する。
ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いてこれらの座標をトークン化し、生成記述子として扱う。
- 参考スコア(独自算出の注目度): 28.452581855002855
- License:
- Abstract: The application of language models (LMs) to molecular structure generation using line notations such as SMILES and SELFIES has been well-established in the field of cheminformatics. However, extending these models to generate 3D molecular structures presents significant challenges. Two primary obstacles emerge: (1) the difficulty in designing a 3D line notation that ensures SE(3)-invariant atomic coordinates, and (2) the non-trivial task of tokenizing continuous coordinates for use in LMs, which inherently require discrete inputs. To address these challenges, we propose Mol-StrucTok, a novel method for tokenizing 3D molecular structures. Our approach comprises two key innovations: (1) We design a line notation for 3D molecules by extracting local atomic coordinates in a spherical coordinate system. This notation builds upon existing 2D line notations and remains agnostic to their specific forms, ensuring compatibility with various molecular representation schemes. (2) We employ a Vector Quantized Variational Autoencoder (VQ-VAE) to tokenize these coordinates, treating them as generation descriptors. To further enhance the representation, we incorporate neighborhood bond lengths and bond angles as understanding descriptors. Leveraging this tokenization framework, we train a GPT-2 style model for 3D molecular generation tasks. Results demonstrate strong performance with significantly faster generation speeds and competitive chemical stability compared to previous methods. Further, by integrating our learned discrete representations into Graphormer model for property prediction on QM9 dataset, Mol-StrucTok reveals consistent improvements across various molecular properties, underscoring the versatility and robustness of our approach.
- Abstract(参考訳): SMILESやSELFIESなどの線表記を用いた言語モデル(LM)の分子構造生成への応用は、ケミノフォマティクスの分野で確立されている。
しかし、これらのモデルを拡張して3次元分子構造を生成することは大きな課題である。
主な障害は、(1)SE(3)不変な原子座標を保証する3次元線記法の設計の難しさ、(2)離散入力を必要とするLMで使用する連続座標をトークン化する非自明なタスクである。
これらの課題に対処するため、3次元分子構造をトークン化する新しい手法であるMoll-StrucTokを提案する。
1) 球面座標系において局所的な原子座標を抽出して3次元分子の線記法を設計する。
この表記法は既存の2次元の線記法の上に構築され、それらの特定の形式に依存せず、様々な分子表現スキームとの整合性を確保する。
2)ベクトル量子変分オートエンコーダ(VQ-VAE)を用いてこれらの座標をトークン化し,生成記述子として扱う。
表現をさらに強化するために, 近傍の結合長と結合角を理解記述子として組み込む。
このトークン化フレームワークを利用して、3次元分子生成タスクのためのGPT-2スタイルモデルを訓練する。
その結果, 従来の手法と比較して, 生成速度と競合化学的安定性が著しく向上し, 高い性能を示した。
さらに、学習した離散表現をグラフマーモデルに統合して、QM9データセット上の特性予測を行い、様々な分子特性の一貫性のある改善を明らかにし、アプローチの汎用性と堅牢性を裏付ける。
関連論文リスト
- DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - MolMix: A Simple Yet Effective Baseline for Multimodal Molecular Representation Learning [17.93173928602627]
本稿では,マルチモーダル分子表現学習のためのトランスフォーマーベースラインを提案する。
我々は,SMILES文字列,2次元グラフ表現,分子の3次元コンフォメータの3つの異なるモダリティを統合する。
その単純さにもかかわらず、我々の手法は複数のデータセットにまたがって最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-10T14:36:58Z) - Geometry Informed Tokenization of Molecules for Language Model Generation [85.80491667588923]
言語モデル(LM)を用いた三次元空間における分子生成の検討
分子グラフのトークン化は存在するが、3次元幾何学では、ほとんど探索されていない。
分子幾何学を$SE(3)$-invariant 1D離散配列に変換するGeo2Seqを提案する。
論文 参考訳(メタデータ) (2024-08-19T16:09:59Z) - Structure-Aware E(3)-Invariant Molecular Conformer Aggregation Networks [43.80038907470173]
分子の2D表現は、その原子、その特性、および分子の共有結合からなる。
分子の3D表現はコンバータと呼ばれ、その原子型とカルテシアン座標からなる。
論文 参考訳(メタデータ) (2024-02-03T00:58:41Z) - Geometry-aware Line Graph Transformer Pre-training for Molecular
Property Prediction [4.598522704308923]
Geometry-Aware line graph transformer (Galformer) は、新しい自己教師型学習フレームワークである。
Galformerは、分類タスクと回帰タスクの両方において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-09-01T14:20:48Z) - CoarsenConf: Equivariant Coarsening with Aggregated Attention for
Molecular Conformer Generation [3.31521245002301]
本稿では, 反角に基づく分子グラフをSE(3)等価な階層的変分オートエンコーダに統合するCoarsenConfを紹介する。
等変粗粒化により、回転可能な結合を介して連結された部分グラフの微細な原子座標を集約し、可変長粗粒化潜在表現を生成する。
本モデルでは, 粗粒の潜在表現から細粒度座標を復元する新しいアグリゲートアテンション機構を用いて, 正確なコンフォメータを効率よく生成する。
論文 参考訳(メタデータ) (2023-06-26T17:02:54Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - GeoMol: Torsional Geometric Generation of Molecular 3D Conformer
Ensembles [60.12186997181117]
分子グラフからの分子の3Dコンホメーラーアンサンブルの予測は、化学情報学と薬物発見の領域において重要な役割を担っている。
既存の生成モデルは、重要な分子幾何学的要素のモデリングの欠如を含むいくつかの欠点がある。
エンド・ツー・エンド、非自己回帰、SE(3)不変の機械学習手法であるGeoMolを提案し、3Dコンバータを生成する。
論文 参考訳(メタデータ) (2021-06-08T14:17:59Z) - An End-to-End Framework for Molecular Conformation Generation via
Bilevel Programming [71.82571553927619]
分子コンフォメーション予測のためのエンドツーエンドソリューションであるconfvaeを提案する。
具体的には、まず分子グラフを潜時空間に符号化し、3次元構造は原理化された二段階最適化プログラムを解くことによって生成される。
論文 参考訳(メタデータ) (2021-05-15T15:22:29Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。