論文の概要: MotifPiece: A Data-Driven Approach for Effective Motif Extraction and
Molecular Representation Learning
- arxiv url: http://arxiv.org/abs/2312.15387v1
- Date: Sun, 24 Dec 2023 02:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:13:36.410386
- Title: MotifPiece: A Data-Driven Approach for Effective Motif Extraction and
Molecular Representation Learning
- Title(参考訳): MotifPiece: 効果的なモチーフ抽出と分子表現学習のためのデータ駆動型アプローチ
- Authors: Zhaoning Yu and Hongyang Gao
- Abstract要約: 規則に基づくアプローチは、分子データ内で頻繁に、あるいは一般的でないモチーフを抽出する。
文字列ベースの手法は、しばしば分子固有のトポロジ的情報を失う。
我々は,モチーフの定義に統計測度を用いるMotifPieceと呼ばれるデータ駆動モチーフ抽出手法を開発した。
- 参考スコア(独自算出の注目度): 19.054701558452564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motif extraction is an important task in motif based molecular representation
learning. Previously, machine learning approaches employing either rule-based
or string-based techniques to extract motifs. Rule-based approaches may extract
motifs that aren't frequent or prevalent within the molecular data, which can
lead to an incomplete understanding of essential structural patterns in
molecules. String-based methods often lose the topological information inherent
in molecules. This can be a significant drawback because topology plays a vital
role in defining the spatial arrangement and connectivity of atoms within a
molecule, which can be critical for understanding its properties and behavior.
In this paper, we develop a data-driven motif extraction technique known as
MotifPiece, which employs statistical measures to define motifs. To
comprehensively evaluate the effectiveness of MotifPiece, we introduce a
heterogeneous learning module. Our model shows an improvement compared to
previously reported models. Additionally, we demonstrate that its performance
can be further enhanced in two ways: first, by incorporating more data to aid
in generating a richer motif vocabulary, and second, by merging multiple
datasets that share enough motifs, allowing for cross-dataset learning.
- Abstract(参考訳): モチーフ抽出はモチーフに基づく分子表現学習において重要な課題である。
以前は、ルールベースあるいは文字列ベースのテクニックを使用してモチーフを抽出する機械学習アプローチが採用されていた。
規則に基づくアプローチは、分子データ内で頻繁または普及しないモチーフを抽出し、分子の本質的な構造パターンを不完全に理解する可能性がある。
文字列ベースの手法は、しばしば分子固有のトポロジ的情報を失う。
これは、トポロジーが分子内の原子の空間配置と接続を定義する上で重要な役割を担っているため、その性質や振る舞いを理解する上で重要である。
本稿では,モチーフの定義に統計的尺度を用いるモチーフピースと呼ばれるデータ駆動モチーフ抽出手法を開発した。
MotifPieceの有効性を総合的に評価するために,異種学習モジュールを導入する。
我々のモデルは以前報告したモデルと比べて改善されている。
ひとつは、よりリッチなモチーフボキャブラリを生成するためにより多くのデータを統合すること、もうひとつは、十分なモチーフを共有する複数のデータセットをマージして、データセット間の学習を可能にすることだ。
関連論文リスト
- MAGE: Model-Level Graph Neural Networks Explanations via Motif-based Graph Generation [16.129359492539095]
グラフニューラルネットワーク(GNN)は、分子タスクにおいて顕著に成功したが、その解釈可能性はまだ難しい。
XGNNやGNNInterpreterのような伝統的なモデルレベルの説明法は、しばしば環のような有効な部分構造を特定するのに失敗し、疑わしい解釈可能性をもたらす。
我々は、モチーフを説明文を生成する基本単位として利用する革新的 textbfMotif-btextbfAsed textbfGNN textbfExplainer (MAGE) を導入する。
論文 参考訳(メタデータ) (2024-05-21T06:12:24Z) - Multi-Modal Representation Learning for Molecular Property Prediction:
Sequence, Graph, Geometry [6.049566024728809]
深層学習に基づく分子特性予測は、従来の手法の資源集約性に対する解決策として登場した。
本稿では,分子特性予測のための新しいマルチモーダル表現学習モデルSGGRLを提案する。
モダリティ間の整合性を確保するため、SGGRLは異なる分子の類似性を最小化しながら同じ分子の表現の類似性を最大化するように訓練される。
論文 参考訳(メタデータ) (2024-01-07T02:18:00Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - De Novo Molecular Generation via Connection-aware Motif Mining [197.97528902698966]
我々は、マイニングされた接続認識モチーフに基づいて分子を生成する新しい方法、MiCaMを提案する。
得られたモチーフ語彙は、分子モチーフ(頻繁な断片)だけでなく、それらの接続情報も含む。
マイニングされた接続対応モチーフに基づいて、MiCaMは接続対応ジェネレータを構築し、同時にモチーフをピックアップし、どのように接続されているかを決定する。
論文 参考訳(メタデータ) (2023-02-02T14:40:47Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Motif-based Graph Self-Supervised Learning forMolecular Property
Prediction [12.789013658551454]
グラフニューラルネットワーク(GNN)は、様々な分子生成および予測タスクにおいて顕著な成功を収めている。
既存のGNN用の自己教師付き事前トレーニングフレームワークのほとんどは、ノードレベルまたはグラフレベルのタスクのみに焦点を当てている。
GNNのための新しい自己教師型モチーフ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T11:45:51Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Using Wavelets and Spectral Methods to Study Patterns in
Image-Classification Datasets [14.041012529932612]
我々はウェーブレット変換とスペクトル法を用いて画像分類データセットの内容を分析する。
データセットから特定のパターンを抽出し、パターンとクラスの関係を見つける。
本手法は,これらのデータセットの学習可能性を理解し,解釈するためのパターン認識手法として利用できる。
論文 参考訳(メタデータ) (2020-06-17T13:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。