論文の概要: MM-Deacon: Multimodal molecular domain embedding analysis via
contrastive learning
- arxiv url: http://arxiv.org/abs/2109.08830v1
- Date: Sat, 18 Sep 2021 04:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:47:31.216464
- Title: MM-Deacon: Multimodal molecular domain embedding analysis via
contrastive learning
- Title(参考訳): MM-Deacon:コントラスト学習によるマルチモーダル分子ドメイン埋め込み解析
- Authors: Zhihui Guo, Pramod Kumar Sharma, Liang Du and Robin Abraham
- Abstract要約: MM-Deacon と呼ばれる多モード分子埋め込み生成手法を提案する。
MM-DeaconはSMILESとIUPAC分子表現を2つの異なるモードとして訓練する。
分子クラスタリング,クロスモーダル分子探索,薬物類似性評価,薬物と薬物の相互作用タスクに対する分子埋め込みの堅牢性を評価した。
- 参考スコア(独自算出の注目度): 6.761743360275381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular representation learning plays an essential role in cheminformatics.
Recently, language model-based approaches have been popular as an alternative
to traditional expert-designed features to encode molecules. However, these
approaches only utilize a single modality for representing molecules. Driven by
the fact that a given molecule can be described through different modalities
such as Simplified Molecular Line Entry System (SMILES), The International
Union of Pure and Applied Chemistry (IUPAC), and The IUPAC International
Chemical Identifier (InChI), we propose a multimodal molecular embedding
generation approach called MM-Deacon (multimodal molecular domain embedding
analysis via contrastive learning). MM-Deacon is trained using SMILES and IUPAC
molecule representations as two different modalities. First, SMILES and IUPAC
strings are encoded by using two different transformer-based language models
independently, then the contrastive loss is utilized to bring these encoded
representations from different modalities closer to each other if they belong
to the same molecule, and to push embeddings farther from each other if they
belong to different molecules. We evaluate the robustness of our molecule
embeddings on molecule clustering, cross-modal molecule search, drug similarity
assessment and drug-drug interaction tasks.
- Abstract(参考訳): 分子表現学習は化学情報学において重要な役割を果たす。
近年、言語モデルに基づくアプローチは、分子をエンコードする伝統的な専門家設計機能に代わるものとして人気がある。
しかしながら、これらのアプローチは分子を表現するために単一のモダリティのみを利用する。
任意の分子が単純分子線入力系(smiles)、iupac(international union of pure and applied chemistry)、inchi(iupac international chemical identifier)といった異なるモダリティを通じて記述できるという事実に触発され、mm-deacon(multimodal molecular domain embedded analysis via contrastive learning)と呼ばれるマルチモーダル分子埋め込み生成アプローチを提案する。
MM-DeaconはSMILESとIUPAC分子表現を2つの異なるモードとして訓練する。
まず、スマイルとiupac文字列は、2つの異なるトランスフォーマーベースの言語モデルを使って独立にエンコードされ、対照的な損失は、それらが同じ分子に属する場合、異なるモダリティからのエンコード表現を互いに近づけ、異なる分子に属する場合、埋め込みを互いに遠くにプッシュするために利用される。
分子クラスタリング,クロスモーダル分子探索,薬物類似性評価,薬物と薬物の相互作用タスクに対する分子埋め込みの堅牢性を評価する。
関連論文リスト
- Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - MolFM: A Multimodal Molecular Foundation Model [9.934141536012596]
MolFMは分子構造、バイオメディカルテキスト、知識グラフからの共同表現学習を容易にするために設計された多モード分子基盤モデルである。
我々は,同分子の異なるモジュラリティ間の特徴空間における距離を最小化することにより,我々のクロスモーダル事前学習が局所的および大域的分子知識を捕捉する理論解析を行う。
クロスモーダル検索では、MolFMは既存のモデルよりも12.13%、絶対利得は5.04%、ゼロショットと微調整がそれぞれ優れている。
論文 参考訳(メタデータ) (2023-06-06T12:45:15Z) - MUDiff: Unified Diffusion for Complete Molecule Generation [104.7021929437504]
本稿では,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を生成する新しいモデルを提案する。
拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。
我々のモデルは、安定で多様な分子を設計するための有望なアプローチであり、分子モデリングの幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2023-04-28T04:25:57Z) - Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。
1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。
我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - Improving Molecular Pretraining with Complementary Featurizations [20.86159731100242]
分子プレトレーニング(英: molecular pretraining)は、計算化学と薬物発見における様々な課題を解決するためのパラダイムである。
化学情報を異なる方法で伝達できることが示される。
我々は, 簡易で効果的な分子事前学習フレームワーク(MOCO)を提案する。
論文 参考訳(メタデータ) (2022-09-29T21:11:09Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Molecular Identification from AFM images using the IUPAC Nomenclature
and Attribute Multimodal Recurrent Neural Networks [0.0]
本稿では,この課題に深層学習技術を用いて対処する戦略を提案する。
従来の分類法に従って有限個の分子を同定する代わりに、分子の同定を画像キャプション問題として定義する。
3D-AFM画像スタックを入力として、未知分子の構造と構成を識別できる2つのマルチモーダルリカレントニューラルネットワークからなるアーキテクチャを設計する。
ニューラルネットワークは、IUPAC命名規則に従って各分子の名前を提供するように訓練されている。
論文 参考訳(メタデータ) (2022-05-01T11:39:32Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [66.84839948236478]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。