論文の概要: MM-Deacon: Multimodal molecular domain embedding analysis via
contrastive learning
- arxiv url: http://arxiv.org/abs/2109.08830v1
- Date: Sat, 18 Sep 2021 04:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:47:31.216464
- Title: MM-Deacon: Multimodal molecular domain embedding analysis via
contrastive learning
- Title(参考訳): MM-Deacon:コントラスト学習によるマルチモーダル分子ドメイン埋め込み解析
- Authors: Zhihui Guo, Pramod Kumar Sharma, Liang Du and Robin Abraham
- Abstract要約: MM-Deacon と呼ばれる多モード分子埋め込み生成手法を提案する。
MM-DeaconはSMILESとIUPAC分子表現を2つの異なるモードとして訓練する。
分子クラスタリング,クロスモーダル分子探索,薬物類似性評価,薬物と薬物の相互作用タスクに対する分子埋め込みの堅牢性を評価した。
- 参考スコア(独自算出の注目度): 6.761743360275381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular representation learning plays an essential role in cheminformatics.
Recently, language model-based approaches have been popular as an alternative
to traditional expert-designed features to encode molecules. However, these
approaches only utilize a single modality for representing molecules. Driven by
the fact that a given molecule can be described through different modalities
such as Simplified Molecular Line Entry System (SMILES), The International
Union of Pure and Applied Chemistry (IUPAC), and The IUPAC International
Chemical Identifier (InChI), we propose a multimodal molecular embedding
generation approach called MM-Deacon (multimodal molecular domain embedding
analysis via contrastive learning). MM-Deacon is trained using SMILES and IUPAC
molecule representations as two different modalities. First, SMILES and IUPAC
strings are encoded by using two different transformer-based language models
independently, then the contrastive loss is utilized to bring these encoded
representations from different modalities closer to each other if they belong
to the same molecule, and to push embeddings farther from each other if they
belong to different molecules. We evaluate the robustness of our molecule
embeddings on molecule clustering, cross-modal molecule search, drug similarity
assessment and drug-drug interaction tasks.
- Abstract(参考訳): 分子表現学習は化学情報学において重要な役割を果たす。
近年、言語モデルに基づくアプローチは、分子をエンコードする伝統的な専門家設計機能に代わるものとして人気がある。
しかしながら、これらのアプローチは分子を表現するために単一のモダリティのみを利用する。
任意の分子が単純分子線入力系(smiles)、iupac(international union of pure and applied chemistry)、inchi(iupac international chemical identifier)といった異なるモダリティを通じて記述できるという事実に触発され、mm-deacon(multimodal molecular domain embedded analysis via contrastive learning)と呼ばれるマルチモーダル分子埋め込み生成アプローチを提案する。
MM-DeaconはSMILESとIUPAC分子表現を2つの異なるモードとして訓練する。
まず、スマイルとiupac文字列は、2つの異なるトランスフォーマーベースの言語モデルを使って独立にエンコードされ、対照的な損失は、それらが同じ分子に属する場合、異なるモダリティからのエンコード表現を互いに近づけ、異なる分子に属する場合、埋め込みを互いに遠くにプッシュするために利用される。
分子クラスタリング,クロスモーダル分子探索,薬物類似性評価,薬物と薬物の相互作用タスクに対する分子埋め込みの堅牢性を評価する。
関連論文リスト
- FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.51027934845928]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - MolFusion: Multimodal Fusion Learning for Molecular Representations via Multi-granularity Views [25.69424590542192]
分子多量性を組み合わせた多粒性融合法を提案する。
MolFusionは分子レベルのエンコーディングコンポーネントであるMollSimと、原子レベルのエンコーディングコンポーネントであるAtomAlignの2つの重要なコンポーネントで構成されている。
その結果,MolFusionは補完的なマルチモーダル情報を効果的に活用し,性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-26T02:26:50Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - MUDiff: Unified Diffusion for Complete Molecule Generation [104.7021929437504]
本稿では,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を生成する新しいモデルを提案する。
拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。
我々のモデルは、安定で多様な分子を設計するための有望なアプローチであり、分子モデリングの幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2023-04-28T04:25:57Z) - Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。
1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。
我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。