論文の概要: OmniCellTOSG: The First Cell Text-Omic Signaling Graphs Dataset for Joint LLM and GNN Modeling
- arxiv url: http://arxiv.org/abs/2504.02148v1
- Date: Wed, 02 Apr 2025 21:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:51.213127
- Title: OmniCellTOSG: The First Cell Text-Omic Signaling Graphs Dataset for Joint LLM and GNN Modeling
- Title(参考訳): OmniCellTOSG: 共同LLMとGNNモデリングのための最初のセルテキスト-Omic Signaling Graphsデータセット
- Authors: Heming Zhang, Tim Xu, Dekang Cao, Shunning Liang, Lars Schimmelpfennig, Levi Kaster, Di Huang, Carlos Cruchaga, Guangfu Li, Michael Province, Yixin Chen, Philip Payne, Fuhai Li,
- Abstract要約: OmniCellTOSGは、セルテキスト・オミリック・シグナリンググラフ(TOSG)の最初のデータセットである。
各TOSGは、個人またはメタセルのシグナルネットワークを表し、臓器、疾患、性別、年齢、細胞サブタイプなどの情報でラベル付けされる。
データセットは継続的に拡張され、定期的に更新される。
- 参考スコア(独自算出の注目度): 14.455616582960557
- License:
- Abstract: Complex cell signaling systems -- governed by varying protein abundances and interactions -- generate diverse cell types across organs. These systems evolve under influences such as age, sex, diet, environmental exposures, and diseases, making them challenging to decode given the involvement of tens of thousands of genes and proteins. Recently, hundreds of millions of single-cell omics data have provided a robust foundation for understanding these signaling networks within various cell subpopulations and conditions. Inspired by the success of large foundation models (for example, large language models and large vision models) pre-trained on massive datasets, we introduce OmniCellTOSG, the first dataset of cell text-omic signaling graphs (TOSGs). Each TOSG represents the signaling network of an individual or meta-cell and is labeled with information such as organ, disease, sex, age, and cell subtype. OmniCellTOSG offers two key contributions. First, it introduces a novel graph model that integrates human-readable annotations -- such as biological functions, cellular locations, signaling pathways, related diseases, and drugs -- with quantitative gene and protein abundance data, enabling graph reasoning to decode cell signaling. This approach calls for new joint models combining large language models and graph neural networks. Second, the dataset is built from single-cell RNA sequencing data of approximately 120 million cells from diverse tissues and conditions (healthy and diseased) and is fully compatible with PyTorch. This facilitates the development of innovative cell signaling models that could transform research in life sciences, healthcare, and precision medicine. The OmniCellTOSG dataset is continuously expanding and will be updated regularly. The dataset and code are available at https://github.com/FuhaiLiAiLab/OmniCellTOSG.
- Abstract(参考訳): 複雑な細胞シグナリングシステムは、様々なタンパク質の量や相互作用によって制御され、臓器にまたがる多様な細胞タイプを生成する。
これらのシステムは、年齢、性別、食事、環境曝露、病気などの影響下で進化し、数万の遺伝子やタンパク質が関与していることを考えると、解読は困難である。
近年、数億の単細胞オミクスデータが、これらのシグナルネットワークを様々な細胞サブポピュレーションや状態の中で理解するための強固な基盤となっている。
大規模な基盤モデル(例えば、大規模言語モデルと大規模視覚モデル)が大量のデータセットで事前訓練されたことに触発されて、我々は、セルテキスト・オミック・シグナリンググラフ(TOSG)の最初のデータセットであるOmniCellTOSGを紹介した。
各TOSGは、個人またはメタセルのシグナルネットワークを表し、臓器、疾患、性別、年齢、細胞サブタイプなどの情報でラベル付けされる。
OmniCellTOSGは2つの重要な貢献をしている。
まず、生物学的機能、細胞の位置、シグナル伝達経路、関連疾患、薬物など、人間の読みやすいアノテーションを定量的な遺伝子とタンパク質の量データと統合し、グラフ推論によって細胞シグナルをデコードする新しいグラフモデルを導入する。
このアプローチでは、大きな言語モデルとグラフニューラルネットワークを組み合わせた新しいジョイントモデルが求められている。
第2に、このデータセットは、様々な組織や状態(健康と病気)から約1億2000万の細胞の単一細胞RNAシークエンシングデータから構築され、PyTorchと完全に互換性がある。
これにより、生命科学、医療、精密医療の研究を変革する革新的な細胞シグナリングモデルの開発が促進される。
OmniCellTOSGデータセットは継続的に拡張され、定期的に更新される。
データセットとコードはhttps://github.com/FuhaiLiAiLab/OmniCellTOSGで公開されている。
関連論文リスト
- scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。
本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。
以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文 参考訳(メタデータ) (2024-12-03T23:58:35Z) - Cell-ontology guided transcriptome foundation model [18.51941953027685]
オープンバイオロジー・バイオメディカルオントロジーファウンデーションの細胞オントロジーグラフにマッピングされた細胞型ラベルを利用して,CellxGeneデータベースから2200万の細胞上でscCelloを事前訓練した。
我々のTFMは、生物学的に重要なタスクにおいて、既存のTFMよりも競合的な一般化と伝達性性能を示す。
論文 参考訳(メタデータ) (2024-08-22T13:15:49Z) - MMIL: A novel algorithm for disease associated cell type discovery [58.044870442206914]
単一細胞データセットは、しばしば個々の細胞ラベルを欠いているため、病気に関連する細胞を特定することは困難である。
セルレベルの分類器の訓練と校正を可能にする予測手法であるMixture Modeling for Multiple Learning Instance (MMIL)を導入する。
論文 参考訳(メタデータ) (2024-06-12T15:22:56Z) - scBiGNN: Bilevel Graph Representation Learning for Cell Type
Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。
scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。
scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文 参考訳(メタデータ) (2023-12-16T03:54:26Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Graph Neural Network approaches for single-cell data: A recent overview [0.3277163122167433]
グラフニューラルネットワーク(GNN)は、遺伝子と細胞間の深いつながりを明らかにすることで、生医学と病気の理解を再構築している。
近年,シングルセルデータに適したGNN手法が注目されている。
このレビューは、GNNがシングルセル分析の中心となる未来を予測している。
論文 参考訳(メタデータ) (2023-10-14T11:09:17Z) - Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。
2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。
提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-12-23T12:17:47Z) - Neural Cellular Automata Manifold [84.08170531451006]
ニューラルセルラーオートマタのニューラルネットワークアーキテクチャは、より大きなNNにカプセル化可能であることを示す。
これにより、NAAの多様体を符号化する新しいモデルを提案し、それぞれが異なる画像を生成することができる。
生物学的には、我々のアプローチは転写因子の役割を担い、細胞の分化を促進する特定のタンパク質への遺伝子マッピングを調節する。
論文 参考訳(メタデータ) (2020-06-22T11:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。