論文の概要: TEDDY: A Family Of Foundation Models For Understanding Single Cell Biology
- arxiv url: http://arxiv.org/abs/2503.03485v1
- Date: Wed, 05 Mar 2025 13:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:50:58.705313
- Title: TEDDY: A Family Of Foundation Models For Understanding Single Cell Biology
- Title(参考訳): TEDDY:単一細胞生物学を理解するための基礎モデル
- Authors: Alexis Chevalier, Soumya Ghosh, Urvi Awasthi, James Watkins, Julia Bieniewska, Nichita Mitrea, Olga Kotova, Kirill Shkura, Andrew Noble, Michael Steinbaugh, Julien Delile, Christoph Meier, Leonid Zhukov, Iya Khalil, Srayanta Mukherjee, Judith Mueller,
- Abstract要約: 既存の基礎モデルでは、ダウンストリームアプリケーションにおいてタスク固有のモデルよりもわずかに改善されるか、改善されない。
トレーニング前のデータセットを1億1600万セルにスケールアップしました。
我々は,トランスフォーマーをベースとした6つの単一セルファウンデーションモデル,7000万,1億6000万,4億のパラメータからなるTEDDYモデルのファミリーを訓練した。
- 参考スコア(独自算出の注目度): 6.289686541194788
- License:
- Abstract: Understanding the biological mechanism of disease is critical for medicine, and in particular drug discovery. AI-powered analysis of genome-scale biological data hold great potential in this regard. The increasing availability of single-cell RNA sequencing data has enabled the development of large foundation models for disease biology. However, existing foundation models either do not improve or only modestly improve over task-specific models in downstream applications. Here, we explored two avenues for improving the state-of-the-art. First, we scaled the pre-training dataset to 116 million cells, which is larger than those used by previous models. Second, we leveraged the availability of large-scale biological annotations as a form of supervision during pre-training. We trained the TEDDY family of models comprising six transformer-based state-of-the-art single-cell foundation models with 70 million, 160 million, and 400 million parameters. We vetted our models on two downstream evaluation tasks -- identifying the underlying disease state of held-out donors not seen during training and distinguishing healthy cells from diseased ones for disease conditions and donors not seen during training. Scaling experiments showed that performance improved predictably with both data volume and parameter count. Our models showed substantial improvement over existing work on the first task and more muted improvements on the second.
- Abstract(参考訳): 病気の生物学的メカニズムを理解することは医学、特に薬物発見にとって重要である。
ゲノムスケールの生物学的データのAIによる分析は、この点において大きな可能性を秘めている。
単一細胞RNAシークエンシングデータの利用が増加し、病気生物学のための大規模な基盤モデルの開発が可能となった。
しかし、既存の基礎モデルはダウンストリームアプリケーションにおいてタスク固有のモデルよりも適度に改善しないか、あるいは単に改善しない。
ここでは、最先端技術を改善するための2つの道について検討した。
まず、トレーニング前のデータセットを1億600万セルに拡大しました。
第2に,事前学習において,大規模生物学的アノテーションの活用を監督の手段として活用した。
我々は,トランスフォーマーをベースとした6つの単一セルファウンデーションモデル,7000万,1億6000万,4億のパラメータからなるTEDDYモデルのファミリーを訓練した。
トレーニング中に見られなかったホールトアウトドナーの疾患状態を特定し、トレーニング中に見えない疾患のある細胞やドナーと健康な細胞を区別する。
スケーリング実験では、データボリュームとパラメータカウントの両方で、パフォーマンスが予測可能に向上した。
私たちのモデルは、最初のタスクにおける既存の作業よりも大幅に改善され、2番目のタスクではさらに改善されました。
関連論文リスト
- METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring [13.988975730867107]
メタゲノミクス基礎モデルMETAGENE-1を, 種々のメタゲノミクスDNAおよびRNA配列の新規コーパスでプレトレーニングした。
このデータセットは、深層メタゲノミクスシークエンシング法を用いて処理およびシーケンスされたヒト排水サンプルの大規模なコレクションから得られたものである。
我々は、このモデルをメダゲノミクスデータセット上で事前トレーニングし、事前トレーニングの過程における損失、システムメトリクス、トレーニング安定性の詳細を提供する。
論文 参考訳(メタデータ) (2025-01-03T18:44:43Z) - How Good Are We? Evaluating Cell AI Foundation Models in Kidney Pathology with Human-in-the-Loop Enrichment [11.60167559546617]
AI基盤モデルのトレーニングは、現実の医療課題に対処するための、有望な大規模学習アプローチとして登場した。
これらのモデルの多くは、疾患の診断や組織定量化などのタスクのために開発されたが、単一の臓器内の核分割のような最も単純なタスクに展開するための準備が整っていないことは確かである。
本稿では、最近の細胞基盤モデルの性能をキュレートされたデータセット上で徹底的に評価することにより、この重要な疑問である「我々はどのくらい良いのか?」に答えようとしている。
論文 参考訳(メタデータ) (2024-10-31T17:00:33Z) - Benchmarking foundation models as feature extractors for weakly-supervised computational pathology [0.6151041580858937]
肺, 大腸癌, 胃癌, 乳癌13例の病理組織学的基盤モデルを用いて, 6,818例, 9,528例の病理組織学的検討を行った。
視覚言語基礎モデルであるCONCHは、視覚のみの基礎モデルと比較して最高性能を示し、Virchow2は第2位である。
論文 参考訳(メタデータ) (2024-08-28T14:34:45Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - DinoBloom: A Foundation Model for Generalizable Cell Embeddings in Hematology [1.3551232282678036]
血液学における単細胞画像の最初の基盤モデルであるDinoBloomを紹介した。
本モデルは末梢血と骨髄のスミアの13種類の多種多様な公開データセットの広範囲な収集に基づいて構築されている。
4つのDinoBloomモデルのファミリーは、幅広い下流アプリケーションに適応することができる。
論文 参考訳(メタデータ) (2024-04-07T17:25:52Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。