論文の概要: Celler:A Genomic Language Model for Long-Tailed Single-Cell Annotation
- arxiv url: http://arxiv.org/abs/2504.00020v1
- Date: Fri, 28 Mar 2025 02:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:25.864305
- Title: Celler:A Genomic Language Model for Long-Tailed Single-Cell Annotation
- Title(参考訳): Celler: 長尺シングルセルアノテーションのためのゲノム言語モデル
- Authors: Huan Zhao, Yiming Liu, Jina Yao, Ling Xiong, Zexin Zhou, Zixing Zhang,
- Abstract要約: 本稿では,単一セルデータのアノテーションに特化して開発されたCellerについて紹介する。
サンプル重量を動的に調整することで、GInf Lossは稀なカテゴリーから学習するモデルの能力を大幅に向上させる。
我々は、80のヒト組織と75の特定疾患にまたがる4000万の細胞を含む大規模な単一細胞データセットCeller-75を構築した。
- 参考スコア(独自算出の注目度): 15.026701157315966
- License:
- Abstract: Recent breakthroughs in single-cell technology have ushered in unparalleled opportunities to decode the molecular intricacy of intricate biological systems, especially those linked to diseases unique to humans. However, these progressions have also ushered in novel obstacles-specifically, the efficient annotation of extensive, long-tailed single-cell data pertaining to disease conditions. To effectively surmount this challenge, we introduce Celler, a state-of-the-art generative pre-training model crafted specifically for the annotation of single-cell data. Celler incorporates two groundbreaking elements: First, we introduced the Gaussian Inflation (GInf) Loss function. By dynamically adjusting sample weights, GInf Loss significantly enhances the model's ability to learn from rare categories while reducing the risk of overfitting for common categories. Secondly, we introduce an innovative Hard Data Mining (HDM) strategy into the training process, specifically targeting the challenging-to-learn minority data samples, which significantly improved the model's predictive accuracy. Additionally, to further advance research in this field, we have constructed a large-scale single-cell dataset: Celler-75, which encompasses 40 million cells distributed across 80 human tissues and 75 specific diseases. This dataset provides critical support for comprehensively exploring the potential of single-cell technology in disease research. Our code is available at https://github.com/AI4science-ym/HiCeller.
- Abstract(参考訳): 単細胞技術における最近のブレークスルーは、複雑な生物学的システムの分子的複雑さ、特に人間特有の疾患に結びついているものをデコードする非例外的な機会に繋がった。
しかし、これらの進歩は、特に病気の病態に関連する、広範囲で長い尾を持つ単一細胞データの効率的なアノテーションである、新しい障害にも結びついている。
この課題を効果的に克服するために,単一セルデータのアノテーションに特化して開発された,最先端の生成事前学習モデルであるCellerを紹介した。
チェラーは2つの画期的な要素を取り入れている: まず、ガウスインフレ(GInf)ロス関数を導入した。
サンプル重量を動的に調整することにより、GInf Lossは稀なカテゴリから学習するモデルの能力を著しく向上させ、共通カテゴリに過度に適合するリスクを低減させる。
第二に、トレーニングプロセスに革新的なハードデータマイニング(HDM)戦略を導入し、特に、学習が難しいマイノリティデータサンプルをターゲットにし、モデルの予測精度を大幅に改善した。
さらに、この分野のさらなる研究のために、80のヒト組織に分布する4000万の細胞と75の特定疾患を含む大規模な単一細胞データセット、Celler-75を構築しました。
このデータセットは、疾患研究における単一細胞技術の可能性を包括的に探求するための重要なサポートを提供する。
私たちのコードはhttps://github.com/AI4science-ym/HiCeller.comで公開されています。
関連論文リスト
- Efficient Fine-Tuning of Single-Cell Foundation Models Enables Zero-Shot Molecular Perturbation Prediction [0.6501158610800594]
本研究では,数千万の単細胞上で事前学習した単一細胞基盤モデル(FM)を利用する。
本稿では,基礎モデルの1%未満のトレーニングにより,効率的な微調整を可能にする薬物調和アダプタを提案する。
論文 参考訳(メタデータ) (2024-12-18T03:42:20Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Mixed Models with Multiple Instance Learning [51.440557223100164]
一般化線形混合モデル(GLMM)とMultiple Instance Learning(MIL)を統合するフレームワークであるMixMILを紹介する。
実験結果から,MixMILは単一セルデータセットにおいて既存のMILモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T16:42:42Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Revolutionizing Single Cell Analysis: The Power of Large Language Models
for Cell Type Annotation [0.0]
ChatGPTやNew Bingのような大規模な言語モデルは、細胞型の正確なアノテーションを提供する。
単一細胞データのアノテートにChatGPTを用いることで、レア細胞型を機能に関連付けることができる。
これは、がんの進行、哺乳類の発達、幹細胞の分化を理解する上で重要な応用となる。
論文 参考訳(メタデータ) (2023-04-05T18:45:54Z) - A biology-driven deep generative model for cell-type annotation in
cytometry [0.0]
Scyanはシングルセルサイトメトリーネットワークで,事前知識のみを用いて細胞タイプを自動的にアノテートする。
Scyanは、複数の公開データセット上の関連する最先端モデルよりも高速で解釈可能である。
さらに、Scyanはバッチ効果除去、デバーコーディング、人口発見など、いくつかの補完的なタスクを克服している。
論文 参考訳(メタデータ) (2022-08-11T10:50:44Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Disease State Prediction From Single-Cell Data Using Graph Attention
Networks [7.314729122296431]
多発性硬化症 (Multiple Sclerosis:MS) 患者の大規模データセット上で, 単細胞データから疾患状態を予測するグラフアテンションモデルを提案する。
グラフ畳み込みネットワークやランダム森林分類器など,他の最先端手法よりも高い精度でMSを予測し,92%の精度を達成した。
私たちの知る限りでは、シングルセルデータから病気の状態を予測するためにグラフ注意とディープラーニングを利用する最初の試みである。
論文 参考訳(メタデータ) (2020-02-14T16:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。