論文の概要: Platform for Representation and Integration of multimodal Molecular Embeddings
- arxiv url: http://arxiv.org/abs/2507.07367v1
- Date: Thu, 10 Jul 2025 01:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.246038
- Title: Platform for Representation and Integration of multimodal Molecular Embeddings
- Title(参考訳): 多モード分子埋め込みの表現と統合のためのプラットフォーム
- Authors: Erika Yilin Zheng, Yu Yan, Baradwaj Simha Sankar, Ethan Ji, Steven Swee, Irsyad Adam, Ding Wang, Alexander Russell Pelletier, Alex Bui, Wei Wang, Peipei Ping,
- Abstract要約: 既存の分子埋め込みのための機械学習手法は、特定のタスクやデータモダリティに制限されている。
既存の埋め込みは、ほとんど重複しない分子信号を取り込んでおり、埋め込み統合の価値を強調している。
我々は,多モード分子埋め込み(PRISME)の表現と統合のためのプラットフォームを提案し,不均一な埋め込みを統一された多モード表現に統合する。
- 参考スコア(独自算出の注目度): 43.54912893426355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing machine learning methods for molecular (e.g., gene) embeddings are restricted to specific tasks or data modalities, limiting their effectiveness within narrow domains. As a result, they fail to capture the full breadth of gene functions and interactions across diverse biological contexts. In this study, we have systematically evaluated knowledge representations of biomolecules across multiple dimensions representing a task-agnostic manner spanning three major data sources, including omics experimental data, literature-derived text data, and knowledge graph-based representations. To distinguish between meaningful biological signals from chance correlations, we devised an adjusted variant of Singular Vector Canonical Correlation Analysis (SVCCA) that quantifies signal redundancy and complementarity across different data modalities and sources. These analyses reveal that existing embeddings capture largely non-overlapping molecular signals, highlighting the value of embedding integration. Building on this insight, we propose Platform for Representation and Integration of multimodal Molecular Embeddings (PRISME), a machine learning based workflow using an autoencoder to integrate these heterogeneous embeddings into a unified multimodal representation. We validated this approach across various benchmark tasks, where PRISME demonstrated consistent performance, and outperformed individual embedding methods in missing value imputations. This new framework supports comprehensive modeling of biomolecules, advancing the development of robust, broadly applicable multimodal embeddings optimized for downstream biomedical machine learning applications.
- Abstract(参考訳): 分子(例えば遺伝子)埋め込みのための既存の機械学習手法は、特定のタスクやデータモダリティに制限され、狭い領域内での有効性を制限する。
その結果、様々な生物学的文脈における遺伝子機能と相互作用の完全な広さを捉えられなかった。
本研究では,オミクス実験データ,文献由来のテキストデータ,知識グラフに基づく表現を含む3つの主要なデータソースにまたがるタスク非依存の方法を示す多次元の生体分子の知識表現を体系的に評価した。
そこで我々は,有意な生物学的信号と確率相関を区別するために,信号の冗長性と相補性を異なるデータモダリティとソース間で定量化する,SVCCA(Singular Vector Canonical correlation Analysis)の修正版を考案した。
これらの分析により、既存の埋め込みは、ほとんど重複しない分子シグナルを捕捉し、埋め込み統合の価値を強調していることが明らかとなった。
この知見に基づいて、オートエンコーダを用いた機械学習ベースのワークフローであるマルチモーダル分子埋め込み(PRISME)の表現と統合のためのプラットフォームを提案し、これらの異種埋め込みを統一されたマルチモーダル表現に統合する。
我々は、PRISMEが一貫した性能を示し、欠落した値の計算において個別の埋め込み手法よりも優れた性能を示した様々なベンチマークタスクに対して、このアプローチを検証した。
この新しいフレームワークは、生体分子の包括的モデリングをサポートし、下流のバイオメディカル機械学習アプリケーションに最適化された、堅牢で広く適用可能なマルチモーダル埋め込みの開発を推進している。
関連論文リスト
- PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models [59.17570021208177]
PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
論文 参考訳(メタデータ) (2025-05-08T18:15:38Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Multimodal Graph-based Transformer Framework for Biomedical Relation
Extraction [21.858440542249934]
本稿では,分子構造などの付加的なマルチモーダルキューの助けを借りて,モデルが実体(タンパク質)に関する多言語生物学的情報を学習することを可能にする新しい枠組みを提案する。
バイオメディカルコーパスを用いたタンパク質プロテイン相互作用タスクの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T16:37:17Z) - BayReL: Bayesian Relational Learning for Multi-omics Data Integration [31.65670269480794]
我々は,異なるマルチオミクスデータ型間の相互作用を推論する新しい手法を開発した。
BayReLはビュー固有の潜伏変数と、ビュー間のインタラクションをエンコードするマルチパーティトグラフを学習する。
実世界の複数のデータセットに対する実験により,BayReLの性能が向上した。
論文 参考訳(メタデータ) (2020-10-12T17:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。