論文の概要: PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models
- arxiv url: http://arxiv.org/abs/2505.05577v1
- Date: Thu, 08 May 2025 18:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.039562
- Title: PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models
- Title(参考訳): PyTDC: バイオメディカル基礎モデルのためのマルチモーダル機械学習トレーニング、評価、推論プラットフォーム
- Authors: Alejandro Velez-Arce, Marinka Zitnik,
- Abstract要約: PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
- 参考スコア(独自算出の注目度): 59.17570021208177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing biomedical benchmarks do not provide end-to-end infrastructure for training, evaluation, and inference of models that integrate multimodal biological data and a broad range of machine learning tasks in therapeutics. We present PyTDC, an open-source machine-learning platform providing streamlined training, evaluation, and inference software for multimodal biological AI models. PyTDC unifies distributed, heterogeneous, continuously updated data sources and model weights and standardizes benchmarking and inference endpoints. This paper discusses the components of PyTDC's architecture and, to our knowledge, the first-of-its-kind case study on the introduced single-cell drug-target nomination ML task. We find state-of-the-art methods in graph representation learning and domain-specific methods from graph theory perform poorly on this task. Though we find a context-aware geometric deep learning method that outperforms the evaluated SoTA and domain-specific baseline methods, the model is unable to generalize to unseen cell types or incorporate additional modalities, highlighting PyTDC's capacity to facilitate an exciting avenue of research developing multimodal, context-aware, foundation models for open problems in biomedical AI.
- Abstract(参考訳): 既存のバイオメディカルベンチマークでは、マルチモーダルな生物学的データと幅広い機械学習タスクを統合するモデルのトレーニング、評価、推論のためのエンドツーエンドのインフラを提供していない。
我々は、オープンソースの機械学習プラットフォームであるPyTDCを紹介し、マルチモーダル生物AIモデルのための合理化トレーニング、評価、推論ソフトウェアを提供する。
PyTDCは、分散、異種、継続的に更新されるデータソースとモデルの重みを統一し、ベンチマークと推論エンドポイントを標準化する。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
グラフ表現学習における最先端の手法と、グラフ理論からのドメイン固有手法は、この課題に対して不十分に機能する。
評価されたSoTAおよびドメイン固有のベースライン法より優れた文脈認識型幾何学的深層学習法を見いだすが,生物医学的AIにおけるオープンな問題に対する基礎モデルの開発において,PyTDCのエキサイティングな研究を促進する能力を強調し,未確認の細胞タイプに一般化したり,追加のモダリティを組み込んだりすることはできない。
関連論文リスト
- Benchmarking Foundation Models with Multimodal Public Electronic Health Records [24.527782376051693]
本稿では,基礎モデルの性能,公平性,解釈可能性を評価するベンチマークを提案する。
我々は異種臨床記録を解析可能な形式に調和させる標準化されたデータ処理パイプラインを開発した。
以上の結果から,複数のデータモダリティを組み込むことで,バイアスを伴わずに予測性能が一貫した改善がもたらされることが示唆された。
論文 参考訳(メタデータ) (2025-07-20T05:08:28Z) - Platform for Representation and Integration of multimodal Molecular Embeddings [43.54912893426355]
既存の分子埋め込みのための機械学習手法は、特定のタスクやデータモダリティに制限されている。
既存の埋め込みは、ほとんど重複しない分子信号を取り込んでおり、埋め込み統合の価値を強調している。
我々は,多モード分子埋め込み(PRISME)の表現と統合のためのプラットフォームを提案し,不均一な埋め込みを統一された多モード表現に統合する。
論文 参考訳(メタデータ) (2025-07-10T01:18:50Z) - Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Advancing bioinformatics with large language models: components, applications and perspectives [12.728981464533918]
LLM(Large Language Model)は、ディープラーニングに基づく人工知能モデルのクラスである。
バイオインフォマティクスにおける大規模言語モデル(LLM)の本質的構成要素について概観する。
主な側面としては、さまざまなデータ型に対するトークン化メソッド、トランスフォーマーモデルのアーキテクチャ、コアアテンションメカニズムなどがある。
論文 参考訳(メタデータ) (2024-01-08T17:26:59Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Multimodal Machine Learning in Image-Based and Clinical Biomedicine:
Survey and Prospects [2.1070612998322438]
本稿では,臨床予測のためのマルチモーダルモデルの変換可能性について検討する。
進歩にもかかわらず、多くの生物医学領域におけるデータバイアスや「ビッグデータ」の不足といった課題が続いている。
論文 参考訳(メタデータ) (2023-11-04T05:42:51Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。