論文の概要: Completing Spatial Transcriptomics Data for Gene Expression Prediction Benchmarking
- arxiv url: http://arxiv.org/abs/2505.02980v1
- Date: Mon, 05 May 2025 19:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.111197
- Title: Completing Spatial Transcriptomics Data for Gene Expression Prediction Benchmarking
- Title(参考訳): 遺伝子発現予測ベンチマークのための空間転写データの補完
- Authors: Daniela Ruiz, Paula Cardenas, Leonardo Manrique, Daniela Vega, Gabriel Mejia, Pablo Arbelaez,
- Abstract要約: 26の公開データセットからなるデータベースであるSpaREDと、最先端のトランスフォーマーに基づく遺伝子発現補完モデルであるSpaCKLEを紹介する。
我々の貢献は、これまででもっとも包括的な組織像からの遺伝子発現予測のベンチマークとなっている。
- 参考スコア(独自算出の注目度): 1.177642303362119
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial Transcriptomics is a groundbreaking technology that integrates histology images with spatially resolved gene expression profiles. Among the various Spatial Transcriptomics techniques available, Visium has emerged as the most widely adopted. However, its accessibility is limited by high costs, the need for specialized expertise, and slow clinical integration. Additionally, gene capture inefficiencies lead to significant dropout, corrupting acquired data. To address these challenges, the deep learning community has explored the gene expression prediction task directly from histology images. Yet, inconsistencies in datasets, preprocessing, and training protocols hinder fair comparisons between models. To bridge this gap, we introduce SpaRED, a systematically curated database comprising 26 public datasets, providing a standardized resource for model evaluation. We further propose SpaCKLE, a state-of-the-art transformer-based gene expression completion model that reduces mean squared error by over 82.5% compared to existing approaches. Finally, we establish the SpaRED benchmark, evaluating eight state-of-the-art prediction models on both raw and SpaCKLE-completed data, demonstrating SpaCKLE substantially improves the results across all the gene expression prediction models. Altogether, our contributions constitute the most comprehensive benchmark of gene expression prediction from histology images to date and a stepping stone for future research on Spatial Transcriptomics.
- Abstract(参考訳): 空間トランスクリプトミクス(Spatial Transcriptomics)は、組織像と空間的に解決された遺伝子発現プロファイルを統合する画期的な技術である。
様々な空間トラノドミクス技術の中で、ビシウムが最も広く採用されている。
しかし、アクセシビリティは高いコスト、専門知識の必要性、臨床統合の遅さによって制限されている。
さらに、遺伝子キャプチャーの非効率性は大幅に低下し、取得したデータを破損させる。
これらの課題に対処するため、ディープラーニングコミュニティは、組織像から直接遺伝子発現予測タスクを探索した。
しかし、データセット、前処理、トレーニングプロトコルの不整合は、モデル間の公正な比較を妨げる。
このギャップを埋めるために、26の公開データセットからなる体系的にキュレートされたデータベースであるSpaREDを導入し、モデル評価のための標準化されたリソースを提供する。
さらに,従来の手法と比較して平均2乗誤差を82.5%以上削減する,最先端のトランスフォーマーに基づく遺伝子発現補完モデルであるSpaCKLEを提案する。
最終的に、SpaCKLEのベンチマークを作成し、生データとSpaCKLEデータの両方で8つの最先端予測モデルを評価し、SpaCKLEが全ての遺伝子発現予測モデルに対して、結果を大幅に改善することを示した。
我々の貢献は、現在までの組織像からの遺伝子発現予測の最も包括的なベンチマークであり、空間トランスクリプトミクスの今後の研究の足掛かりとなっている。
関連論文リスト
- Teaching pathology foundation models to accurately predict gene expression with parameter efficient knowledge transfer [1.5416321520529301]
PEKA(Efficient Knowledge Adaptation)は、クロスモーダルな知識伝達のための知識蒸留と構造アライメント損失を統合する新しいフレームワークである。
複数の空間転写学データセットを用いた遺伝子発現予測のためのPEKAの評価を行った。
論文 参考訳(メタデータ) (2025-04-09T17:24:41Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - SpaRED benchmark: Enhancing Gene Expression Prediction from Histology Images with Spatial Transcriptomics Completion [2.032350440475489]
我々は,26の公開資料から収集した体系的にキュレートされ,処理されたデータベースについて述べる。
また、欠落した遺伝子発現を推測する技術として、最先端のトランスフォーマーベースの補完手法を提案する。
我々の貢献は、これまででもっとも包括的な組織像からの遺伝子発現予測のベンチマークとなっている。
論文 参考訳(メタデータ) (2024-07-17T21:28:20Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - SEPAL: Spatial Gene Expression Prediction from Local Graphs [1.4523812806185954]
視覚組織の外観から遺伝子プロファイルを予測する新しいモデルであるSEPALを提案する。
本手法は, 平均表現に対する相対差を直接観察することにより, 問題の生物学的バイアスを生かしている。
そこで本研究では,転写学における現在のベストプラクティスに従うことにより,タスクをより適切に定義することを目的とした新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-09-02T23:24:02Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。