論文の概要: MolMix: A Simple Yet Effective Baseline for Multimodal Molecular Representation Learning
- arxiv url: http://arxiv.org/abs/2410.07981v1
- Date: Thu, 24 Oct 2024 08:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 06:15:07.783045
- Title: MolMix: A Simple Yet Effective Baseline for Multimodal Molecular Representation Learning
- Title(参考訳): MolMix:マルチモーダルな分子表現学習のためのシンプルで効果的なベースライン
- Authors: Andrei Manolache, Dragos Tantaru, Mathias Niepert,
- Abstract要約: 本稿では,マルチモーダル分子表現学習のためのトランスフォーマーベースラインを提案する。
我々は,SMILES文字列,2次元グラフ表現,分子の3次元コンフォメータの3つの異なるモダリティを統合する。
その単純さにもかかわらず、我々の手法は複数のデータセットにまたがって最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 17.93173928602627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a simple transformer-based baseline for multimodal molecular representation learning, integrating three distinct modalities: SMILES strings, 2D graph representations, and 3D conformers of molecules. A key aspect of our approach is the aggregation of 3D conformers, allowing the model to account for the fact that molecules can adopt multiple conformations-an important factor for accurate molecular representation. The tokens for each modality are extracted using modality-specific encoders: a transformer for SMILES strings, a message-passing neural network for 2D graphs, and an equivariant neural network for 3D conformers. The flexibility and modularity of this framework enable easy adaptation and replacement of these encoders, making the model highly versatile for different molecular tasks. The extracted tokens are then combined into a unified multimodal sequence, which is processed by a downstream transformer for prediction tasks. To efficiently scale our model for large multimodal datasets, we utilize Flash Attention 2 and bfloat16 precision. Despite its simplicity, our approach achieves state-of-the-art results across multiple datasets, demonstrating its effectiveness as a strong baseline for multimodal molecular representation learning.
- Abstract(参考訳): 本研究では, SMILES文字列, 2次元グラフ表現, 分子の3次元コンホメータの3つの異なるモダリティを統合した, マルチモーダル分子表現学習のための単純なトランスフォーマーベースラインを提案する。
アプローチの重要な側面は3Dコンフォメータの集約であり、分子が複数のコンフォメーションを適用できるという事実をモデルが考慮できる。
各モダリティ用トークンは、SMILES文字列用トランスフォーマー、2Dグラフ用メッセージパスニューラルネットワーク、3Dコンバータ用同変ニューラルネットワークを用いて抽出される。
このフレームワークの柔軟性とモジュラリティにより、これらのエンコーダの適応と置換が容易になり、異なる分子タスクに対して非常に汎用性の高いモデルとなる。
抽出されたトークンは統合されたマルチモーダルシーケンスに結合され、予測タスクのために下流変換器によって処理される。
大規模なマルチモーダルデータセットに対して,我々のモデルを効率的にスケールするために,Flash Attention 2 と bfloat16 の精度を利用する。
その単純さにもかかわらず、本手法は複数のデータセットにまたがる最先端の結果を達成し、マルチモーダルな分子表現学習の強力なベースラインとしての有効性を実証する。
関連論文リスト
- BindGPT: A Scalable Framework for 3D Molecular Design via Language Modeling and Reinforcement Learning [11.862370962277938]
本稿では,タンパク質結合部位内で3D分子を生成するために,概念的にシンプルだが強力なアプローチを用いた新規な生成モデルBindGPTを提案する。
このような単純な概念的アプローチと事前学習とスケーリングが組み合わさって、現在の最高の特殊拡散モデルよりも同等以上の性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-06-06T02:10:50Z) - SE3Set: Harnessing equivariant hypergraph neural networks for molecular representation learning [27.713870291922333]
分子表現学習に適したSE(3)同変ハイパーグラフニューラルネットワークアーキテクチャを開発した。
SE3Setは、小さな分子データセットのための最先端(SOTA)モデルと同等のパフォーマンスを示している。
MD22データセットを上回り、全ての分子で約20%の精度で顕著な改善を達成している。
論文 参考訳(メタデータ) (2024-05-26T10:43:16Z) - MolBind: Multimodal Alignment of Language, Molecules, and Proteins [16.98169256565552]
MolBindは、コントラスト学習を通じて、複数のモダリティのためにエンコーダを訓練するフレームワークである。
MolBindは、幅広いタスクにわたって優れたゼロショット学習性能を示している。
論文 参考訳(メタデータ) (2024-03-13T01:38:42Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction [9.388979080270103]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - MUDiff: Unified Diffusion for Complete Molecule Generation [104.7021929437504]
本稿では,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を生成する新しいモデルを提案する。
拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。
我々のモデルは、安定で多様な分子を設計するための有望なアプローチであり、分子モデリングの幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2023-04-28T04:25:57Z) - One Transformer Can Understand Both 2D & 3D Molecular Data [94.93514673086631]
我々はTransformer-Mと呼ばれる新しい分子モデルを開発した。
入力として2Dまたは3Dフォーマットの分子データを取り込み、意味のある意味表現を生成する。
実験の結果,Transformer-Mは2次元および3次元のタスクで高い性能を同時に達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T17:30:31Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Dual-view Molecule Pre-training [186.07333992384287]
デュアルビュー分子事前学習は、両方のタイプの分子表現の強さを効果的に組み合わせることができる。
DMPは9つの分子特性予測タスクでテストされ、そのうち7つで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-17T03:58:38Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。