論文の概要: Learning Molecular Representation in a Cell
- arxiv url: http://arxiv.org/abs/2406.12056v1
- Date: Mon, 17 Jun 2024 19:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:57:20.015401
- Title: Learning Molecular Representation in a Cell
- Title(参考訳): 細胞内における分子表現の学習
- Authors: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh,
- Abstract要約: 本稿では,細胞内情報ボトルネック法を用いて分子表現を学習するための情報アライメント(InfoAlign)手法を提案する。
我々は、分子と細胞応答データをノードとしてコンテキストグラフに統合し、化学、生物学的、計算基準に基づいて重み付けされたエッジと接続する。
十分性目的(sufficiency objective)は、コンテキストグラフ内の分子の近傍から異なる特徴空間と整合するように表現をデコードする。
- 参考スコア(独自算出の注目度): 18.170650265987792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting drug efficacy and safety in vivo requires information on biological responses (e.g., cell morphology and gene expression) to small molecule perturbations. However, current molecular representation learning methods do not provide a comprehensive view of cell states under these perturbations and struggle to remove noise, hindering model generalization. We introduce the Information Alignment (InfoAlign) approach to learn molecular representations through the information bottleneck method in cells. We integrate molecules and cellular response data as nodes into a context graph, connecting them with weighted edges based on chemical, biological, and computational criteria. For each molecule in a training batch, InfoAlign optimizes the encoder's latent representation with a minimality objective to discard redundant structural information. A sufficiency objective decodes the representation to align with different feature spaces from the molecule's neighborhood in the context graph. We demonstrate that the proposed sufficiency objective for alignment is tighter than existing encoder-based contrastive methods. Empirically, we validate representations from InfoAlign in two downstream tasks: molecular property prediction against up to 19 baseline methods across four datasets, plus zero-shot molecule-morphology matching.
- Abstract(参考訳): 薬物の有効性と安全性をin vivoで予測するには、小さな分子摂動に対する生物学的反応(細胞形態、遺伝子発現など)に関する情報が必要である。
しかしながら、現在の分子表現学習法は、これらの摂動下での細胞状態の包括的なビューを提供しておらず、ノイズを取り除くのに苦労し、モデル一般化を妨げている。
本稿では,細胞内情報ボトルネック法を用いて分子表現を学習するための情報アライメント(InfoAlign)手法を提案する。
我々は、分子と細胞応答データをノードとしてコンテキストグラフに統合し、化学、生物学的、計算基準に基づいて重み付けされたエッジと接続する。
トレーニングバッチの各分子に対して、InfoAlignはエンコーダの潜在表現を最小限の目的で最適化し、冗長な構造情報を破棄する。
十分性目的(sufficiency objective)は、コンテキストグラフ内の分子の近傍から異なる特徴空間と整合するように表現をデコードする。
提案手法は,既存のエンコーダをベースとしたコントラスト法よりも,アライメントの効率向上を目標としている。
経験的に、我々はInfoAlignの表現を2つの下流タスクで検証した: 4つのデータセットにまたがる19のベースライン法に対する分子特性予測とゼロショット分子形態整合である。
関連論文リスト
- Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation [42.08917809689811]
SMILES文字列とテキストから表現を共同学習するマルチモーダルな分子表現学習フレームワークAtomasを提案する。
検索タスクでは、Atomasは堅牢な一般化能力を示し、ベースラインを平均30.8%上回っている。
生成タスクでは、Atomasは分子キャプションタスクと分子生成タスクの両方で最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-04-23T12:35:44Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Target-aware Molecular Graph Generation [37.937378787812264]
そこで我々は,SiamFlowを提案する。これはフローが潜在空間内のターゲットシーケンス埋め込みの分布に適合するように強制する。
具体的には、アライメント損失と一様損失を用いて、ターゲットシーケンスの埋め込みと薬物グラフの埋め込みを合意に導く。
実験により,提案手法は,分子グラフ生成に向けた潜在空間における有意な表現を定量的に学習することを示す。
論文 参考訳(メタデータ) (2022-02-10T04:31:14Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。