Fugu-MT 論文翻訳(概要): LangCell: Language-Cell Pre-training for Cell Identity Understanding

論文の概要: LangCell: Language-Cell Pre-training for Cell Identity Understanding

arxiv url: http://arxiv.org/abs/2405.06708v4
Date: Fri, 7 Jun 2024 02:22:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 19:08:28.951576
Title: LangCell: Language-Cell Pre-training for Cell Identity Understanding
Title（参考訳）: LangCell: 細胞アイデンティティ理解のためのLanguage-Cell事前トレーニング
Authors: Suyuan Zhao, Jiahuan Zhang, Yushuai Wu, Yizhen Luo, Zaiqing Nie,
Abstract要約: 我々は,最初のLanguage-Cell事前学習フレームワークであるLangCellを紹介した。LangCellは,セルアイデンティティ情報に富んだテキストを利用して,クロスモーダル知識の深い理解を得る。異なるベンチマークで実施された実験の結果、LangCellはゼロショットセルアイデンティティ理解のシナリオで効果的に機能する唯一のシングルセルPLMであることがわかった。
参考スコア（独自算出の注目度）: 3.6518971609937068
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cell identity encompasses various semantic aspects of a cell, including cell type, pathway information, disease information, and more, which are essential for biologists to gain insights into its biological characteristics. Understanding cell identity from the transcriptomic data, such as annotating cell types, has become an important task in bioinformatics. As these semantic aspects are determined by human experts, it is impossible for AI models to effectively carry out cell identity understanding tasks without the supervision signals provided by single-cell and label pairs. The single-cell pre-trained language models (PLMs) currently used for this task are trained only on a single modality, transcriptomics data, lack an understanding of cell identity knowledge. As a result, they have to be fine-tuned for downstream tasks and struggle when lacking labeled data with the desired semantic labels. To address this issue, we propose an innovative solution by constructing a unified representation of single-cell data and natural language during the pre-training phase, allowing the model to directly incorporate insights related to cell identity. More specifically, we introduce LangCell, the first Language-Cell pre-training framework. LangCell utilizes texts enriched with cell identity information to gain a profound comprehension of cross-modal knowledge. Results from experiments conducted on different benchmarks show that LangCell is the only single-cell PLM that can work effectively in zero-shot cell identity understanding scenarios, and also significantly outperforms existing models in few-shot and fine-tuning cell identity understanding scenarios.
Abstract（参考訳）: 細胞識別は、細胞の種類、経路情報、疾患情報など、細胞の様々な意味的側面を包含しており、生物学者がその生物学的特性を理解するのに不可欠である。細胞型アノテートなどの転写学的データから細胞識別を理解することは、生体情報学において重要な課題となっている。これらのセマンティックな側面は人間の専門家によって決定されるため、単一セルとラベルペアによって提供される監視信号なしで、AIモデルが細胞アイデンティティ理解タスクを効果的に実行することは不可能である。このタスクに現在使用されているシングルセル事前訓練言語モデル(PLM)は、単一のモダリティ、トランスクリプトミクスデータのみに基づいて訓練され、セルアイデンティティの知識の理解が欠如している。結果として、望ましいセマンティックラベルでラベル付きデータを欠いている場合には、ダウンストリームタスクや苦労のために微調整される必要がある。この問題に対処するために,事前学習期間中に単一セルデータと自然言語の統一表現を構築し,セルアイデンティティに関連する洞察を直接組み込むという,革新的な手法を提案する。より具体的には、最初のLanguage-Cell事前トレーニングフレームワークであるLangCellを紹介します。 LangCellは、セルアイデンティティ情報に富んだテキストを利用して、クロスモーダルな知識の深い理解を得る。異なるベンチマークで実施された実験の結果、LangCellはゼロショットのセル識別理解シナリオで効果的に機能する唯一のシングルセルPLMであり、また、少数ショットと微調整のセル識別理解シナリオで既存のモデルよりも大幅に優れていることが示された。

関連論文リスト

Cell-o1: Training LLMs to Solve Single-Cell Reasoning Puzzles with Reinforcement Learning [44.91329557101423]
我々はCellPuzzlesタスクを導入し、その目的はセルのバッチにユニークなセルタイプを割り当てることである。このベンチマークは、様々な組織、疾患、ドナーの状態にまたがっており、ラベルの独特性を保証するために、バッチレベルの細胞コンテキストをまたいで推論する必要がある。蒸留液の微調整を施した7B LLMのCell-o1を提案する。
論文参考訳（メタデータ） (2025-06-03T14:16:53Z)
CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following [32.67347401145835]
大きな言語モデルは複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できる。 InstructCellは、自然言語を媒体として活用し、より直接的で柔軟な単細胞分析を行うマルチモーダルAIコラボロである。 InstructCellは、細胞型アノテーション、条件付き擬似細胞生成、薬物感受性予測を用いた単純な自然言語コマンドなどの重要なタスクを研究者に実行させる。
論文参考訳（メタデータ） (2025-01-14T15:12:19Z)
Single-Cell Omics Arena: A Benchmark Study for Large Language Models on Cell Type Annotation Using Single-Cell Data [13.56585855722118]
大規模言語モデル(LLM)は、テキストの膨大なコーパスを効率的に処理し、合成し、生物学的知識を自動的に抽出する能力を実証している。本研究は、単一細胞RNAシークエンシング(scRNA-seq)データにおいて、細胞型を正確に分類し、アノテートするLLMの可能性を探るものである。以上の結果から,LCMは微調整を必要とせずに単一セルデータの堅牢な解釈を実現できることが示された。
論文参考訳（メタデータ） (2024-12-03T23:58:35Z)
Cell as Point: One-Stage Framework for Efficient Cell Tracking [54.19259129722988]
本稿では,一段階の効率的なセルトラッキングを実現するために,新しいエンドツーエンドCAPフレームワークを提案する。 CAPは検出またはセグメンテーション段階を放棄し、細胞点の軌跡間の相関を利用して細胞を共同で追跡することでプロセスを単純化する。 Capは強力なセルトラッキング性能を示し、既存の方法の10倍から55倍の効率を示している。
論文参考訳（メタデータ） (2024-11-22T10:16:35Z)
How to Build the Virtual Cell with Artificial Intelligence: Priorities and Opportunities [46.671834972945874]
仮想セル構築にAIの進歩を活用するというビジョンを提案する。我々は、生物の普遍的な表現を含む、そのようなAI仮想セルの望ましい能力について議論する。我々は、AI仮想細胞が新しい薬物標的を特定し、摂動に対する細胞反応を予測し、スケール仮説を探索する未来を想像する。
論文参考訳（メタデータ） (2024-09-18T02:41:50Z)
Cell-ontology guided transcriptome foundation model [18.51941953027685]
to present textbfsingle textbfcell, textbfCell-textbfontology guided TFM scCello。我々のTFMは、生物学的に重要なタスクにおいて、既存のTFMよりも競争力と伝達性を示す。
論文参考訳（メタデータ） (2024-08-22T13:15:49Z)
Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。 CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文参考訳（メタデータ） (2024-07-16T14:05:03Z)
UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文参考訳（メタデータ） (2024-02-20T11:50:27Z)
ChatCell: Facilitating Single-Cell Analysis with Natural Language [40.4429032376233]
ChatCellは、自然言語による単一セル分析を容易にするツールである。 ChatCellは単細胞生物学の深い専門知識を得た。プロジェクトのホームページはhttps://zjunlp.io/project/ChatCell.orgで公開されています。
論文参考訳（メタデータ） (2024-02-13T09:06:14Z)
Prediction of Cellular Identities from Trajectory and Cell Fate Information [0.40964539027092917]
本稿では,機械学習を用いた早期のtextitC. elegansgenesisにおける細胞識別の革新的アプローチを提案する。ランダムな森林, 胚, LSTMモデルを用いて, 最初の4時間にわたる3次元タイムラプスデータセットの細胞分類精度を検証した。本研究は, 簡単な時空間的特徴から, タイムラプス画像における細胞アイデンティティの予測に成功したことを示す。
論文参考訳（メタデータ） (2024-01-11T03:28:13Z)
Single-Cell Deep Clustering Method Assisted by Exogenous Gene Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文参考訳（メタデータ） (2023-11-28T09:14:55Z)
Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文参考訳（メタデータ） (2023-11-04T16:42:42Z)
Revolutionizing Single Cell Analysis: The Power of Large Language Models for Cell Type Annotation [0.0]
ChatGPTやNew Bingのような大規模な言語モデルは、細胞型の正確なアノテーションを提供する。単一細胞データのアノテートにChatGPTを用いることで、レア細胞型を機能に関連付けることができる。これは、がんの進行、哺乳類の発達、幹細胞の分化を理解する上で重要な応用となる。
論文参考訳（メタデータ） (2023-04-05T18:45:54Z)
OCELOT: Overlapped Cell on Tissue Dataset for Histopathology [13.691924123273004]
組織学における細胞検出のための細胞間関係研究のためのデータセットであるOCELOTをリリースする。細胞と組織の両方のタスクを同時に学習できるマルチタスク学習手法を提案する。特にOCELOTテストセットでは、F1スコアが最大6.79改善されている。
論文参考訳（メタデータ） (2023-03-23T08:57:11Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。