論文の概要: BARTSmiles: Generative Masked Language Models for Molecular
Representations
- arxiv url: http://arxiv.org/abs/2211.16349v1
- Date: Tue, 29 Nov 2022 16:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 18:01:35.181282
- Title: BARTSmiles: Generative Masked Language Models for Molecular
Representations
- Title(参考訳): BARTSmiles:分子表現のための生成的マスケッド言語モデル
- Authors: Gayane Chilingaryan, Hovhannes Tamoyan, Ani Tevosyan, Nelly Babayan,
Lusine Khondkaryan, Karen Hambardzumyan, Zaven Navoyan, Hrant Khachatrian,
Armen Aghajanyan
- Abstract要約: BARTSmilesは、従来の自己制御分子表現よりも桁違いに計算量の多いBARTライクなモデルである。
詳細な評価では、BARTSmilesは分類、回帰、生成タスクにまたがる他の自己監督的表現を一貫して上回っている。
- 参考スコア(独自算出の注目度): 10.012900591467938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discover a robust self-supervised strategy tailored towards molecular
representations for generative masked language models through a series of
tailored, in-depth ablations. Using this pre-training strategy, we train
BARTSmiles, a BART-like model with an order of magnitude more compute than
previous self-supervised molecular representations. In-depth evaluations show
that BARTSmiles consistently outperforms other self-supervised representations
across classification, regression, and generation tasks setting a new
state-of-the-art on 11 tasks. We then quantitatively show that when applied to
the molecular domain, the BART objective learns representations that implicitly
encode our downstream tasks of interest. For example, by selecting seven
neurons from a frozen BARTSmiles, we can obtain a model having performance
within two percentage points of the full fine-tuned model on task Clintox.
Lastly, we show that standard attribution interpretability methods, when
applied to BARTSmiles, highlight certain substructures that chemists use to
explain specific properties of molecules. The code and the pretrained model are
publicly available.
- Abstract(参考訳): 我々は,生成的マスク言語モデルのための分子表現を指向したロバストな自己教師付き戦略を,一連の調整された深いアブレーションを通じて発見する。
この事前学習戦略を用いて,従来の自己教師あり分子表現よりも桁違いな計算量を持つbartsmilesモデルを訓練した。
詳細な評価では、BARTSmilesは、分類、回帰、および11のタスクに新しい最先端を設定する生成タスクで、他の自己監督的表現を一貫して上回っている。
次に、分子領域に適用すると、BARTの目的が、我々の関心のある下流のタスクを暗黙的に符号化する表現を学ぶことを定量的に示す。
例えば、凍結したBARTSmilesから7つのニューロンを選択することで、タスクClintox上での完全な微調整モデルの2%のパフォーマンスを持つモデルを得ることができる。
最後に、BARTSmilesに適用された標準属性解釈法は、化学者が分子の特定の性質を説明するために使用する部分構造を強調している。
コードと事前訓練されたモデルは公開されている。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Multi-Modal Representation Learning for Molecular Property Prediction:
Sequence, Graph, Geometry [6.049566024728809]
深層学習に基づく分子特性予測は、従来の手法の資源集約性に対する解決策として登場した。
本稿では,分子特性予測のための新しいマルチモーダル表現学習モデルSGGRLを提案する。
モダリティ間の整合性を確保するため、SGGRLは異なる分子の類似性を最小化しながら同じ分子の表現の類似性を最大化するように訓練される。
論文 参考訳(メタデータ) (2024-01-07T02:18:00Z) - AdaMR: Adaptable Molecular Representation for Unified Pre-training Strategy [11.710702202071573]
分子調節性表現(AdaMR)と呼ばれる,小分子薬物の大規模均一事前学習戦略を提案する。
AdaMRは、分子正準化と呼ばれる事前訓練ジョブによって達成される粒度調整可能な分子エンコーディング戦略を利用する。
6つの分子特性予測タスクと2つの生成タスクに関する事前学習モデルを微調整し、8つのタスクのうち5つについてSOTA(State-of-the-art)の結果を得た。
論文 参考訳(メタデータ) (2023-12-28T10:53:17Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation [9.116670221263753]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。
フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。
従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2023-01-04T21:41:01Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。