論文の概要: LangCell: Language-Cell Pre-training for Cell Identity Understanding
- arxiv url: http://arxiv.org/abs/2405.06708v3
- Date: Wed, 29 May 2024 02:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:42:17.553257
- Title: LangCell: Language-Cell Pre-training for Cell Identity Understanding
- Title(参考訳): LangCell: 細胞アイデンティティ理解のためのLanguage-Cell事前トレーニング
- Authors: Suyuan Zhao, Jiahuan Zhang, Yizhen Luo, Yushuai Wu, Zaiqing Nie,
- Abstract要約: 最初のLanguage-Cell事前学習フレームワークであるLangCellを紹介します。
LangCellは、ゼロショットセル識別理解シナリオで効果的に機能できる唯一のシングルセルPLMである。
- 参考スコア(独自算出の注目度): 3.6518971609937068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cell identity encompasses various semantic aspects of a cell, including cell type, pathway information, disease information, and more, which are essential for biologists to gain insights into its biological characteristics. Understanding cell identity from the transcriptomic data, such as annotating cell types, have become an important task in bioinformatics. As these semantic aspects are determined by human experts, it is impossible for AI models to effectively carry out cell identity understanding tasks without the supervision signals provided by single-cell and label pairs. The single-cell pre-trained language models (PLMs) currently used for this task are trained only on a single modality, transcriptomics data, lack an understanding of cell identity knowledge. As a result, they have to be fine-tuned for downstream tasks and struggle when lacking labeled data with the desired semantic labels. To address this issue, we propose an innovative solution by constructing a unified representation of single-cell data and natural language during the pre-training phase, allowing the model to directly incorporate insights related to cell identity. More specifically, we introduce LangCell, the first Language-Cell pre-training framework. LangCell utilizes texts enriched with cell identity information to gain a profound comprehension of cross-modal knowledge. Results from experiments conducted on different benchmarks show that LangCell is the only single-cell PLM that can work effectively in zero-shot cell identity understanding scenarios, and also significantly outperforms existing models in few-shot and fine-tuning cell identity understanding scenarios.
- Abstract(参考訳): 細胞識別は、細胞の種類、経路情報、疾患情報など、細胞の様々な意味的側面を包含しており、生物学者がその生物学的特性を理解するのに不可欠である。
細胞型アノテートなどの転写学的データから細胞識別を理解することは、生体情報学において重要な課題となっている。
これらのセマンティックな側面は人間の専門家によって決定されるため、単一セルとラベルペアによって提供される監視信号なしで、AIモデルが細胞アイデンティティ理解タスクを効果的に実行することは不可能である。
このタスクに現在使用されているシングルセル事前訓練言語モデル(PLM)は、単一のモダリティ、トランスクリプトミクスデータのみに基づいて訓練され、セルアイデンティティの知識の理解が欠如している。
結果として、望ましいセマンティックラベルでラベル付きデータを欠いている場合には、ダウンストリームタスクや苦労のために微調整される必要がある。
この問題に対処するために,事前学習期間中に単一セルデータと自然言語の統一表現を構築し,セルアイデンティティに関連する洞察を直接組み込むという,革新的な手法を提案する。
より具体的には、最初のLanguage-Cell事前トレーニングフレームワークであるLangCellを紹介します。
LangCellは、セルアイデンティティ情報に富んだテキストを利用して、クロスモーダルな知識の深い理解を得る。
異なるベンチマークで実施された実験の結果、LangCellはゼロショットのセル識別理解シナリオで効果的に機能する唯一のシングルセルPLMであり、また、少数ショットと微調整のセル識別理解シナリオで既存のモデルよりも大幅に優れていることが示された。
関連論文リスト
- UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - ChatCell: Facilitating Single-Cell Analysis with Natural Language [40.4429032376233]
ChatCellは、自然言語による単一セル分析を容易にするツールである。
ChatCellは単細胞生物学の深い専門知識を得た。
プロジェクトのホームページはhttps://zjunlp.io/project/ChatCell.orgで公開されています。
論文 参考訳(メタデータ) (2024-02-13T09:06:14Z) - Prediction of Cellular Identities from Trajectory and Cell Fate
Information [0.40964539027092917]
本稿では,機械学習を用いた早期のtextitC. elegansgenesisにおける細胞識別の革新的アプローチを提案する。
ランダムな森林, 胚, LSTMモデルを用いて, 最初の4時間にわたる3次元タイムラプスデータセットの細胞分類精度を検証した。
本研究は, 簡単な時空間的特徴から, タイムラプス画像における細胞アイデンティティの予測に成功したことを示す。
論文 参考訳(メタデータ) (2024-01-11T03:28:13Z) - CellMixer: Annotation-free Semantic Cell Segmentation of Heterogeneous
Cell Populations [9.335273591976648]
異種細胞集団のセマンティックセグメンテーションのための革新的なアノテーションのないアプローチであるCellMixerを提案する。
以上の結果から,CellMixerは複数のセルタイプにまたがる競合セグメンテーション性能と画像モダリティを実現することができることがわかった。
論文 参考訳(メタデータ) (2023-12-01T15:50:20Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Revolutionizing Single Cell Analysis: The Power of Large Language Models
for Cell Type Annotation [0.0]
ChatGPTやNew Bingのような大規模な言語モデルは、細胞型の正確なアノテーションを提供する。
単一細胞データのアノテートにChatGPTを用いることで、レア細胞型を機能に関連付けることができる。
これは、がんの進行、哺乳類の発達、幹細胞の分化を理解する上で重要な応用となる。
論文 参考訳(メタデータ) (2023-04-05T18:45:54Z) - OCELOT: Overlapped Cell on Tissue Dataset for Histopathology [13.691924123273004]
組織学における細胞検出のための細胞間関係研究のためのデータセットであるOCELOTをリリースする。
細胞と組織の両方のタスクを同時に学習できるマルチタスク学習手法を提案する。
特にOCELOTテストセットでは、F1スコアが最大6.79改善されている。
論文 参考訳(メタデータ) (2023-03-23T08:57:11Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。