論文の概要: xTrimoGene: An Efficient and Scalable Representation Learner for
Single-Cell RNA-Seq Data
- arxiv url: http://arxiv.org/abs/2311.15156v1
- Date: Sun, 26 Nov 2023 01:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 19:13:02.860652
- Title: xTrimoGene: An Efficient and Scalable Representation Learner for
Single-Cell RNA-Seq Data
- Title(参考訳): xTrimoGene:シングルセルRNA-Seqデータのための効率的でスケーラブルな表現学習者
- Authors: Jing Gong, Minsheng Hao, Xingyi Cheng, Xin Zeng, Chiming Liu, Jianzhu
Ma, Xuegong Zhang, Taifeng Wang, Le Song
- Abstract要約: 我々は、xTrimoGene$alpha$(略してxTrimoGene)と呼ばれる、cRNA-seqデータのための新しい非対称エンコーダデコーダトランスを提案する。
xTrimoGeneは、高い精度を維持しながら、古典的なトランスフォーマーと比較して、FLOPを1~2桁削減する。
また,モデルサイズをスケールアップすることで,xTrimoGeneの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 45.043516102428676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in high-throughput sequencing technology have led to significant
progress in measuring gene expressions at the single-cell level. The amount of
publicly available single-cell RNA-seq (scRNA-seq) data is already surpassing
50M records for humans with each record measuring 20,000 genes. This highlights
the need for unsupervised representation learning to fully ingest these data,
yet classical transformer architectures are prohibitive to train on such data
in terms of both computation and memory. To address this challenge, we propose
a novel asymmetric encoder-decoder transformer for scRNA-seq data, called
xTrimoGene$^\alpha$ (or xTrimoGene for short), which leverages the sparse
characteristic of the data to scale up the pre-training. This scalable design
of xTrimoGene reduces FLOPs by one to two orders of magnitude compared to
classical transformers while maintaining high accuracy, enabling us to train
the largest transformer models over the largest scRNA-seq dataset today. Our
experiments also show that the performance of xTrimoGene improves as we scale
up the model sizes, and it also leads to SOTA performance over various
downstream tasks, such as cell type annotation, perturb-seq effect prediction,
and drug combination prediction. xTrimoGene model is now available for use as a
service via the following link: https://api.biomap.com/xTrimoGene/apply.
- Abstract(参考訳): 高スループットシークエンシング技術の進歩は、単一細胞レベルでの遺伝子発現の測定に大きな進歩をもたらした。
公開されているシングルセルRNA-seq(scRNA-seq)の量は、すでに2万の遺伝子を計測したヒトの5000万レコードを超えている。
これは教師なし表現学習の必要性を強調するものだが、古典的なトランスフォーマーアーキテクチャでは、計算とメモリの両方でそのようなデータをトレーニングすることは禁止されている。
この課題に対処するため、我々は、xTrimoGene$^\alpha$(略してxTrimoGene)と呼ばれる、cRNA-seqデータのための新しい非対称エンコーダデコーダ変換器を提案する。
xTrimoGeneのこのスケーラブルな設計は、従来のトランスフォーマーに比べてFLOPを1~2桁削減し、高い精度を維持しながら、今日の最大のScRNA-seqデータセット上で最大のトランスフォーマーモデルをトレーニングすることができる。
また,モデルサイズを拡大するにつれて,xTrimoGeneの性能が向上し,セルタイプアノテーションやパーターブシーク効果予測,薬物の組み合わせ予測など,様々な下流タスクにおけるSOTA性能も向上することを示した。
xTrimoGeneモデルは現在、以下のリンクを通じてサービスとして利用可能である。
関連論文リスト
- White-Box Diffusion Transformer for single-cell RNA-seq generation [9.846966401472802]
そこで我々はDiffusion ModelとWhite-Box Transformerに基づくハイブリッドモデルを提案する。
我々のWhite-Box Diffusion Transformerは、Diffusionモデルの生成能力とWhite-Box Transformerの数学的解釈性を組み合わせる。
論文 参考訳(メタデータ) (2024-11-11T08:24:59Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Approximate kNN Classification for Biomedical Data [1.1852406625172218]
Single-cell RNA-seq (scRNA-seq) は、将来性はあるが重要な計算課題を持つDNAシークエンシング技術である。
scRNA-seqデータにおけるkNN分類のタスクに近似した近接探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。