論文の概要: MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language
- arxiv url: http://arxiv.org/abs/2410.22367v2
- Date: Fri, 01 Nov 2024 16:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:34:11.281801
- Title: MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language
- Title(参考訳): MAMMAL - 分子配向型マルチモーダルアーキテクチャと言語
- Authors: Yoel Shoshan, Moshiko Raboh, Michal Ozery-Flato, Vadim Ratner, Alex Golts, Jeffrey K. Weber, Ella Barkan, Simona Rabinovici-Cohen, Sagi Polaczek, Ido Amos, Ben Shapira, Liam Hazan, Matan Ninio, Sivan Ravid, Michael M. Danziger, Joseph A. Morrone, Parthasarathy Suryanarayanan, Michal Rosen-Zvi, Efrat Hexter,
- Abstract要約: MAMMALは、大規模生物学的データセットから学習する多目的マルチタスク基盤モデルである。
我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。
典型的薬物発見パイプライン内の異なるステップにまたがる11種類の下流タスクのモデルを評価した。
- 参考スコア(独自算出の注目度): 0.24434823694833652
- License:
- Abstract: Drug discovery typically consists of multiple steps, including identifying a target protein key to a disease's etiology, validating that interacting with this target could prevent symptoms or cure the disease, discovering a small molecule or biologic therapeutic to interact with it, and optimizing the candidate molecule through a complex landscape of required properties. Drug discovery related tasks often involve prediction and generation while considering multiple entities that potentially interact, which poses a challenge for typical AI models. For this purpose we present MAMMAL - Molecular Aligned Multi-Modal Architecture and Language - a method that we applied to create a versatile multi-task multi-align foundation model that learns from large-scale biological datasets (2 billion samples) across diverse modalities, including proteins, small molecules, and genes. We introduce a prompt syntax that supports a wide range of classification, regression, and generation tasks. It allows combining different modalities and entity types as inputs and/or outputs. Our model handles combinations of tokens and scalars and enables the generation of small molecules and proteins, property prediction, and transcriptomic lab test predictions. We evaluated the model on 11 diverse downstream tasks spanning different steps within a typical drug discovery pipeline, where it reaches new SOTA in 9 tasks and is comparable to SOTA in 2 tasks. This performance is achieved while using a unified architecture serving all tasks, in contrast to the original SOTA performance achieved using tailored architectures. The model code and pretrained weights are publicly available at https://github.com/BiomedSciAI/biomed-multi-alignment and https://huggingface.co/ibm/biomed.omics.bl.sm.ma-ted-458m.
- Abstract(参考訳): 薬物発見は典型的には、疾患の病因の標的となるタンパク質の鍵を同定し、この標的と相互作用することで症状を予防したり病気を治療したり、それと相互作用する小さな分子や生物学的治療を発見すること、必要な性質の複雑な風景を通して候補分子を最適化することなど、複数のステップから構成される。
薬物発見に関連するタスクは、しばしば予測と生成を伴い、潜在的に相互作用する複数のエンティティを考慮し、典型的なAIモデルに挑戦する。
この目的のために,MAMMAL - Molecular Aligned Multi-Modal Architecture and Language - タンパク質,小分子,遺伝子を含む多様な様態をまたいだ大規模生物学的データセット(20億のサンプル)から学習する多目的マルチタスク・マルチタスク基盤モデルの構築に応用した手法を提案する。
我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。
入力や出力として異なるモダリティとエンティティタイプを組み合わせることができる。
我々のモデルはトークンとスカラーの組み合わせを処理し、小さな分子やタンパク質の生成、特性予測、転写実験室のテスト予測を可能にします。
典型的薬物発見パイプライン内の異なるステップにまたがる11の下流タスクにおいて、9つのタスクで新しいSOTAに到達し、2つのタスクでSOTAに匹敵する1つのタスクでモデルを評価した。
この性能は、全てのタスクに対応する統一アーキテクチャを使用して達成される。
モデルはhttps://github.com/BiomedSciAI/biomed-multi-alignmentとhttps://huggingface.co/ibm/biomed.omics.bl.sm.ma-ted-458mで公開されている。
関連論文リスト
- OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。
金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。
この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - HeMeNet: Heterogeneous Multichannel Equivariant Network for Protein Multitask Learning [33.972536394058004]
本稿では,3次元タンパク質構造の入力に基づいて,複数のタスクを協調的に処理するニューラルネットワークモデルを提案する。
特に,我々はまず,Protein-MTと呼ばれる標準構造に基づくマルチタスクベンチマークを構築した。
そこで我々は,HeMeNet(Heterogeneous Multi Channel Equivariant Network)と呼ばれる,マルチタスク学習のための新しいグラフニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2024-04-02T06:53:45Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Generative Pretrained Autoregressive Transformer Graph Neural Network
applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。
本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。
追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文 参考訳(メタデータ) (2023-05-07T12:30:24Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - OmiEmbed: reconstruct comprehensive phenotypic information from
multi-omics data using multi-task deep learning [19.889861433855053]
高次元オミクスデータは、パーソナライズド医療に不可欠な本質的なバイオメディカル情報を含む。
多数の分子的特徴と少量のサンプルのために、ゲノム全体のデータからそれらを捉えることは困難である。
我々は,高次元オミクスデータから表現型の全体的かつ比較的正確なプロファイルを捉えるために,OmiEmbedという統合マルチタスク深層学習フレームワークを提案した。
論文 参考訳(メタデータ) (2021-02-03T07:34:29Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。