論文の概要: SALSA: Semantically-Aware Latent Space Autoencoder
- arxiv url: http://arxiv.org/abs/2310.02744v1
- Date: Wed, 4 Oct 2023 11:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:31:02.331244
- Title: SALSA: Semantically-Aware Latent Space Autoencoder
- Title(参考訳): SALSA: セマンティックなラテントスペースオートエンコーダ
- Authors: Kathryn E. Kirchoff, Travis Maxfield, Alexander Tropsha, Shawn M.
Gomez
- Abstract要約: 本稿では,分子間のグラフ-グラフ類似性を学習するために,コントラストタスクで修正したトランスフォーマー-オートエンコーダを提案する。
構成した学習目標が,1)構造的認識,2)意味的連続,3)特性的認識といった品質の高い潜伏空間につながることを示す。
- 参考スコア(独自算出の注目度): 45.39474752148712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning for drug discovery, chemical data are often represented as
simplified molecular-input line-entry system (SMILES) sequences which allow for
straightforward implementation of natural language processing methodologies,
one being the sequence-to-sequence autoencoder. However, we observe that
training an autoencoder solely on SMILES is insufficient to learn molecular
representations that are semantically meaningful, where semantics are defined
by the structural (graph-to-graph) similarities between molecules. We
demonstrate by example that autoencoders may map structurally similar molecules
to distant codes, resulting in an incoherent latent space that does not respect
the structural similarities between molecules. To address this shortcoming we
propose Semantically-Aware Latent Space Autoencoder (SALSA), a
transformer-autoencoder modified with a contrastive task, tailored specifically
to learn graph-to-graph similarity between molecules. Formally, the contrastive
objective is to map structurally similar molecules (separated by a single graph
edit) to nearby codes in the latent space. To accomplish this, we generate a
novel dataset comprised of sets of structurally similar molecules and opt for a
supervised contrastive loss that is able to incorporate full sets of positive
samples. We compare SALSA to its ablated counterparts, and show empirically
that the composed training objective (reconstruction and contrastive task)
leads to a higher quality latent space that is more 1) structurally-aware, 2)
semantically continuous, and 3) property-aware.
- Abstract(参考訳): 薬物発見のためのディープラーニングでは、化学データは単純な分子入力ラインエントリーシステム(smiles)シーケンスとして表現され、自然言語処理方法論の簡単な実装を可能にする。
しかし、SMILESにのみ依存するオートエンコーダの訓練は、意味論的意味を持つ分子表現を学ぶには不十分であり、そこでは意味論は分子間の構造的(グラフ間)類似性によって定義される。
例えば、オートエンコーダは構造的に類似した分子を遠方の符号にマッピングし、分子間の構造的類似性を尊重しない非一貫性な潜在空間となることを実証する。
この欠点に対処するため、我々は分子間のグラフ対グラフの類似性を学ぶために特別に調整された、コントラストタスクで修正されたトランスフォーマーオートエンコーダである意味論的に認識された潜在空間オートエンコーダ(salsa)を提案する。
形式的には、対照的な目的は構造的に類似した分子(単一のグラフ編集で区切られた)を潜在空間の近傍の符号にマッピングすることである。
これを実現するために、構造的に類似した分子の集合からなる新しいデータセットを生成し、全正のサンプルを組み込むことができる教師付きコントラスト損失を選択する。
salsa と ablated の比較を行い, 構成された訓練目標(再構築と対比作業)がより高品質な潜在空間へと導くことを実証的に示す。
1)構造的認識
2)意味的連続、及び
3) 財産を意識する。
関連論文リスト
- Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval [24.061535843472427]
最適TRansportに基づく多粒度アライメントモデル(ORMA)を導入する。
ORMAは、テキスト記述と分子間の多義的なアライメントを促進する新しいアプローチである。
ChEBI-20データセットとPCdesデータセットの実験結果から、ORMAが既存のSOTA(State-of-the-art)モデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-11-04T06:30:52Z) - GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Attention Based Molecule Generation via Hierarchical Variational Autoencoder [0.0]
ニューラルネットワークと畳み込みネットワークを階層的に組み合わせることで,SMILES文字列から自己回帰情報を抽出できることを示す。
これにより、既知の分子を再構成する際に95%のオーダーで非常に高い妥当性を持つ世代が生まれる。
論文 参考訳(メタデータ) (2024-01-18T21:45:12Z) - CHA2: CHemistry Aware Convex Hull Autoencoder Towards Inverse Molecular
Design [2.169755083801688]
検索空間全体を包括的に探索して、興味のある性質を持つデ・ノヴォ構造を利用することは不可能である。
この課題に対処するために、難解な探索空間を低次元の潜在体積に減らすことで、分子候補をより効果的に調べることができる。
そこで我々は,高いQEDを持つ新規分子を明らかにする効率的な方法として,高いQEDでトップ分子を取り囲む凸ホールを用いて,潜在表現におけるタイトな部分空間を抽出することを提案する。
論文 参考訳(メタデータ) (2023-02-21T21:05:31Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Relative Molecule Self-Attention Transformer [4.020171169198032]
Relative Molecule Attention Transformer (R-MAT) は、新しいトランスフォーマーベースのモデルである。
我々の主な貢献は、R-MAT(Relative Molecule Attention Transformer)である。これは、新しいトランスフォーマーベースのモデルであり、分子特性予測タスクの幅広い範囲において、最先端または非常に競争的な結果を達成する。
論文 参考訳(メタデータ) (2021-10-12T09:05:26Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z) - Continuous Representation of Molecules Using Graph Variational
Autoencoder [8.726908273226584]
本稿では,分子の2次元グラフ構造に作用するVAEの形で生成モデルを提案する。
サイド予測器は、潜伏空間をプルークし、デコーダが意味のある分子の隣接テンソルを生成するのを助けるために用いられる。
論文 参考訳(メタデータ) (2020-04-17T10:19:55Z) - Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。
エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする
我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文 参考訳(メタデータ) (2020-02-07T17:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。