論文の概要: A Large-Scale Benchmark of Cross-Modal Learning for Histology and Gene Expression in Spatial Transcriptomics
- arxiv url: http://arxiv.org/abs/2508.01490v1
- Date: Sat, 02 Aug 2025 21:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.707087
- Title: A Large-Scale Benchmark of Cross-Modal Learning for Histology and Gene Expression in Spatial Transcriptomics
- Title(参考訳): 空間転写学における組織学と遺伝子発現のためのクロスモーダル学習の大規模ベンチマーク
- Authors: Rushin H. Gindra, Giovanni Palla, Mathias Nguyen, Sophia J. Wagner, Manuel Tran, Fabian J Theis, Dieter Saur, Lorin Crawford, Tingying Peng,
- Abstract要約: HESCAPEは空間転写学におけるクロスモーダルコントラスト事前学習の評価のためのベンチマークである。
空間転写学データに事前訓練された遺伝子モデルは、空間データや単純なベースラインアプローチなしで訓練された遺伝子よりも優れている。
バッチ効果は、効果的なクロスモーダルアライメントを阻害する重要な要因である。
- 参考スコア(独自算出の注目度): 2.3070195554676993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial transcriptomics enables simultaneous measurement of gene expression and tissue morphology, offering unprecedented insights into cellular organization and disease mechanisms. However, the field lacks comprehensive benchmarks for evaluating multimodal learning methods that leverage both histology images and gene expression data. Here, we present HESCAPE, a large-scale benchmark for cross-modal contrastive pretraining in spatial transcriptomics, built on a curated pan-organ dataset spanning 6 different gene panels and 54 donors. We systematically evaluated state-of-the-art image and gene expression encoders across multiple pretraining strategies and assessed their effectiveness on two downstream tasks: gene mutation classification and gene expression prediction. Our benchmark demonstrates that gene expression encoders are the primary determinant of strong representational alignment, and that gene models pretrained on spatial transcriptomics data outperform both those trained without spatial data and simple baseline approaches. However, downstream task evaluation reveals a striking contradiction: while contrastive pretraining consistently improves gene mutation classification performance, it degrades direct gene expression prediction compared to baseline encoders trained without cross-modal objectives. We identify batch effects as a key factor that interferes with effective cross-modal alignment. Our findings highlight the critical need for batch-robust multimodal learning approaches in spatial transcriptomics. To accelerate progress in this direction, we release HESCAPE, providing standardized datasets, evaluation protocols, and benchmarking tools for the community
- Abstract(参考訳): 空間転写学は、遺伝子発現と組織形態の同時測定を可能にし、細胞組織と疾患機構に関する前例のない洞察を提供する。
しかし、この分野は、ヒストロジー画像と遺伝子発現データの両方を活用するマルチモーダル学習手法を評価するための包括的なベンチマークを欠いている。
ここでは6つの異なる遺伝子パネルと54のドナーからなる培養パン有機体データセット上に構築した,空間転写学におけるクロスモーダルコントラスト事前学習のための大規模ベンチマークHESCAPEを提案する。
我々は,複数の事前学習戦略にまたがって,最先端の画像エンコーダと遺伝子発現エンコーダを体系的に評価し,遺伝子変異分類と遺伝子発現予測という2つの下流課題においてその効果を評価した。
本ベンチマークでは, 遺伝子発現エンコーダが強い表現アライメントの主要因であり, 空間転写学データに事前学習された遺伝子モデルは, 空間データや単純なベースラインアプローチを使わずに訓練された遺伝子よりも優れていることを示した。
しかし、下流タスク評価は、対照的な事前訓練は、遺伝子変異分類性能を一貫して改善する一方で、クロスモーダルな目的を持たずに訓練されたベースラインエンコーダと比較して、直接遺伝子発現予測を低下させる。
バッチ効果は、効果的なクロスモーダルアライメントを阻害する重要な要因である。
本研究は,空間転写学におけるバッチロバストなマルチモーダル学習アプローチの意義を明らかにするものである。
この方向の進展を加速するため、標準化されたデータセット、評価プロトコル、ベンチマークツールをコミュニティに提供するHESCAPEをリリースする。
関連論文リスト
- Gene-DML: Dual-Pathway Multi-Level Discrimination for Gene Expression Prediction from Histopathology Images [5.638556074980827]
病理組織像からの正確な遺伝子発現予測は、分子プロファイリングに対するスケーラブルで非侵襲的なアプローチを提供する。
既存の方法では、病理組織像と遺伝子発現プロファイルの相互表現アライメントを未利用にすることがしばしばある。
我々はDual-pathway Multi-Levelの識別を通じて潜在空間を構造化する統合フレームワークであるGene-DMLを提案する。
論文 参考訳(メタデータ) (2025-07-19T15:45:12Z) - GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - Completing Spatial Transcriptomics Data for Gene Expression Prediction Benchmarking [1.177642303362119]
26の公開データセットからなるデータベースであるSpaREDと、最先端のトランスフォーマーに基づく遺伝子発現補完モデルであるSpaCKLEを紹介する。
我々の貢献は、これまででもっとも包括的な組織像からの遺伝子発現予測のベンチマークとなっている。
論文 参考訳(メタデータ) (2025-05-05T19:17:29Z) - A Misclassification Network-Based Method for Comparative Genomic Analysis [3.7671415694914927]
メタデータに基づくゲノム配列の分類は、数十年間、比較ゲノム学において活発な研究領域であった。
本研究では、AIとネットワークサイエンスのアプローチを統合し、比較ゲノム分析フレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-09T23:22:15Z) - RankByGene: Gene-Guided Histopathology Representation Learning Through Cross-Modal Ranking Consistency [11.813883157319381]
ランク付けに基づくアライメント損失を用いて、遺伝子と画像の特徴を整列する新しいフレームワークを提案する。
そこで我々は,教師と学生のネットワークアーキテクチャを用いた自己指導型知識蒸留を用いて,アライメントの安定性をさらに向上させる。
論文 参考訳(メタデータ) (2024-11-22T17:08:28Z) - SpaRED benchmark: Enhancing Gene Expression Prediction from Histology Images with Spatial Transcriptomics Completion [2.032350440475489]
我々は,26の公開資料から収集した体系的にキュレートされ,処理されたデータベースについて述べる。
また、欠落した遺伝子発現を推測する技術として、最先端のトランスフォーマーベースの補完手法を提案する。
我々の貢献は、これまででもっとも包括的な組織像からの遺伝子発現予測のベンチマークとなっている。
論文 参考訳(メタデータ) (2024-07-17T21:28:20Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - A Novel Granular-Based Bi-Clustering Method of Deep Mining the
Co-Expressed Genes [76.84066556597342]
ビクラスタリング法は、サンプル(遺伝子)のサブセットが試験条件下で協調的に制御されるバイクラスタをマイニングするために用いられる。
残念ながら、従来の二クラスタ法はそのような二クラスタを発見するのに完全には効果がない。
本稿では,グラニュラーコンピューティングの理論を取り入れた新しい2クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-12T02:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。