Fugu-MT 論文翻訳(概要): MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language

論文の概要: MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language

arxiv url: http://arxiv.org/abs/2410.22367v1
Date: Mon, 28 Oct 2024 20:45:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.022349
Title: MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language
Title（参考訳）: MAMMAL - 分子配向型マルチモーダルアーキテクチャと言語
Authors: Yoel Shoshan, Moshiko Raboh, Michal Ozery-Flato, Vadim Ratner, Alex Golts, Jeffrey K. Weber, Ella Barkan, Simona Rabinovici-Cohen, Sagi Polaczek, Ido Amos, Ben Shapira, Liam Hazan, Matan Ninio, Sivan Ravid, Michael M. Danziger, Joseph A. Morrone, Parthasarathy Suryanarayanan, Michal Rosen-Zvi, Efrat Hexter,
Abstract要約: MAMMALは多目的マルチタスク基盤モデル ibm/biomed.omics.bl.sm.ma-ted-458m である。我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。典型的薬物発見パイプライン内の異なるステップにまたがる11種類の下流タスクのモデルを評価した。
参考スコア（独自算出の注目度）: 0.24434823694833652
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Drug discovery typically consists of multiple steps, including identifying a target protein key to a disease's etiology, validating that interacting with this target could prevent symptoms or cure the disease, discovering a small molecule or biologic therapeutic to interact with it, and optimizing the candidate molecule through a complex landscape of required properties. Drug discovery related tasks often involve prediction and generation while considering multiple entities that potentially interact, which poses a challenge for typical AI models. For this purpose we present MAMMAL - Molecular Aligned Multi-Modal Architecture and Language - a method that we applied to create a versatile multi-task foundation model ibm/biomed.omics.bl.sm.ma-ted-458m that learns from large-scale biological datasets (2 billion samples) across diverse modalities, including proteins, small molecules, and genes. We introduce a prompt syntax that supports a wide range of classification, regression, and generation tasks. It allows combining different modalities and entity types as inputs and/or outputs. Our model handles combinations of tokens and scalars and enables the generation of small molecules and proteins, property prediction, and transcriptomic lab test predictions. We evaluated the model on 11 diverse downstream tasks spanning different steps within a typical drug discovery pipeline, where it reaches new SOTA in 9 tasks and is comparable to SOTA in 2 tasks. This performance is achieved while using a unified architecture serving all tasks, in contrast to the original SOTA performance achieved using tailored architectures. The model code and pretrained weights are publicly available at https://github.com/BiomedSciAI/biomed-multi-alignment and https://huggingface.co/ibm/biomed.omics.bl.sm.ma-ted-458m.
Abstract（参考訳）: 薬物発見は典型的には、疾患の病因の標的となるタンパク質の鍵を同定し、この標的と相互作用することで症状を予防したり病気を治療したり、それと相互作用する小さな分子や生物学的治療を発見すること、必要な性質の複雑な風景を通して候補分子を最適化することなど、複数のステップから構成される。薬物発見に関連するタスクは、しばしば予測と生成を伴い、潜在的に相互作用する複数のエンティティを考慮し、典型的なAIモデルに挑戦する。この目的のために、MAMMAL - Molecular Aligned Multi-Modal Architecture and Language - タンパク質、小分子、遺伝子を含む様々なモジュールの大規模生物学的データセット(20億のサンプル)から学習する、多目的なマルチタスク基盤モデルibm/biomed.omics.bl.sm.ma-ted-458mを作成する方法を提案する。我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。入力や出力として異なるモダリティとエンティティタイプを組み合わせることができる。我々のモデルはトークンとスカラーの組み合わせを処理し、小さな分子やタンパク質の生成、特性予測、転写実験室のテスト予測を可能にします。典型的薬物発見パイプライン内の異なるステップにまたがる11の下流タスクにおいて、9つのタスクで新しいSOTAに到達し、2つのタスクでSOTAに匹敵する1つのタスクでモデルを評価した。この性能は、全てのタスクに対応する統一アーキテクチャを使用して達成される。モデルはhttps://github.com/BiomedSciAI/biomed-multi-alignmentとhttps://huggingface.co/ibm/biomed.omics.bl.sm.ma-ted-458mで公開されている。

関連論文リスト

Masked Omics Modeling for Multimodal Representation Learning across Histopathology and Molecular Profiles [0.0]
自己教師付き学習は、計算病理学に大きな進歩をもたらした。しかし、病理組織学だけでは分子的特徴や臨床結果の理解に乏しいことが多い。我々はMORPHEUSを紹介した。MORPHEUSは、組織学とマルチオミクスの両方のデータを共有潜在空間にエンコードする統合トランスフォーマーベースの事前学習フレームワークである。
論文参考訳（メタデータ） (2025-08-01T15:29:26Z)
Model Evolution Framework with Genetic Algorithm for Multi-Task Reinforcement Learning [85.91908329457081]
マルチタスク強化学習は、様々なシナリオにまたがって一般化可能なエージェントを開発することを目的として、様々なタスクを完遂するために単一のポリシーを採用する。既存のアプローチでは、ルーティングネットワークを使用して各タスクの特定のルートを生成し、モジュールのセットをさまざまなモデルに再構築し、複数のタスクを同時に完了させるのが一般的である。本稿では,遺伝的アルゴリズム(MEGA)を用いたモデル進化フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T09:22:34Z)
Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。 Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-11T06:53:59Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文参考訳（メタデータ） (2024-12-13T18:42:00Z)
OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文参考訳（メタデータ） (2024-11-07T16:54:54Z)
BSM: Small but Powerful Biological Sequence Model for Genes and Proteins [6.6055625629542085]
小型ながら強力な混合モード生物配列基盤モデルであるBSMを導入する。 RefSeq、Gene Related Sequences、およびWebから生物学的シークエンスをインターリーブした3種類のデータに基づいてトレーニングされている。学習効率とクロスモーダル表現を著しく向上させ、非モーダルデータにのみ訓練されたモデルよりも優れています。
論文参考訳（メタデータ） (2024-10-15T11:12:28Z)
HeMeNet: Heterogeneous Multichannel Equivariant Network for Protein Multitask Learning [33.972536394058004]
本稿では,3次元タンパク質構造の入力に基づいて,複数のタスクを協調的に処理するニューラルネットワークモデルを提案する。特に,我々はまず,Protein-MTと呼ばれる標準構造に基づくマルチタスクベンチマークを構築した。そこで我々は,HeMeNet(Heterogeneous Multi Channel Equivariant Network)と呼ばれる,マルチタスク学習のための新しいグラフニューラルネットワークを開発した。
論文参考訳（メタデータ） (2024-04-02T06:53:45Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
Target-aware Variational Auto-encoders for Ligand Generation with Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文参考訳（メタデータ） (2023-08-02T12:08:17Z)
Generative Pretrained Autoregressive Transformer Graph Neural Network applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文参考訳（メタデータ） (2023-05-07T12:30:24Z)
Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文参考訳（メタデータ） (2023-02-04T01:32:40Z)
Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。 GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文参考訳（メタデータ） (2022-07-20T07:32:02Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
OmiEmbed: reconstruct comprehensive phenotypic information from multi-omics data using multi-task deep learning [19.889861433855053]
高次元オミクスデータは、パーソナライズド医療に不可欠な本質的なバイオメディカル情報を含む。多数の分子的特徴と少量のサンプルのために、ゲノム全体のデータからそれらを捉えることは困難である。我々は,高次元オミクスデータから表現型の全体的かつ比較的正確なプロファイルを捉えるために,OmiEmbedという統合マルチタスク深層学習フレームワークを提案した。
論文参考訳（メタデータ） (2021-02-03T07:34:29Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)
MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文参考訳（メタデータ） (2020-10-05T20:18:42Z)
Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文参考訳（メタデータ） (2020-09-02T02:50:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。