論文の概要: Learning from Gene Names, Expression Values and Images: Contrastive Masked Text-Image Pretraining for Spatial Transcriptomics Representation Learning
- arxiv url: http://arxiv.org/abs/2509.16892v1
- Date: Sun, 21 Sep 2025 03:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.024381
- Title: Learning from Gene Names, Expression Values and Images: Contrastive Masked Text-Image Pretraining for Spatial Transcriptomics Representation Learning
- Title(参考訳): 遺伝子名・表現値・画像から学ぶ:空間的トランスクリプトミクス表現学習のためのコントラスト的マスク付きテキスト-画像前処理
- Authors: Jiahe Qian, Yaoyu Fang, Ziqiao Weng, Xinkun Wang, Lee A. Cooper, Bo Zhou,
- Abstract要約: CoMTIPはContrastive Masked Text-Image Pretrainingフレームワークである。
画像、遺伝子名、表現値から学習し、空間転写学の微粒な視覚的コンテキストをキャプチャする。
CoMTIPは、様々な下流タスクにおける従来の手法を超えるだけでなく、ゼロショットの遺伝子発現予測も達成している。
- 参考スコア(独自算出の注目度): 2.234171233882506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial transcriptomics aims to connect high-resolution histology images with spatially resolved gene expression. To achieve better performance on downstream tasks such as gene expression prediction, large-scale pre-training is required to obtain generalisable representations that can bridge histology and transcriptomics across tissues, protocols, and laboratories. Existing cross-modal pre-training approaches for spatial transcriptomics rely on either gene names or expression values in isolation, which strips the gene branch of essential semantics and breaks the association between each gene and its quantitative magnitude. In addition, by restricting supervision to image-text alignment, these methods ignore intrinsic visual cues that are critical for learning robust image features. We present CoMTIP, the first Contrastive Masked Text-Image Pretraining framework that jointly learns from images, gene names, and expression values while capturing fine-grained visual context for spatial transcriptomics. The vision branch uses Masked Feature Modeling to reconstruct occluded patches and learn context-aware image embeddings. The text branch applies a scalable Gene-Text Encoder that processes all gene sentences in parallel, enriches each gene and its numerical value with dedicated embeddings, and employs Pair-aware Adversarial Training (PAAT) to preserve correct gene-value associations. Image and text representations are aligned in a shared InfoNCE-optimised space. Experiments on public spatial transcriptomics datasets show that CoMTIP not only surpasses previous methods on diverse downstream tasks but also achieves zero-shot gene expression prediction, a capability that existing approaches do not provide.
- Abstract(参考訳): 空間転写学は、高解像度の組織像と空間的に解決された遺伝子発現を結びつけることを目的としている。
遺伝子発現予測などの下流タスクにおいて、より優れたパフォーマンスを達成するために、組織、プロトコル、研究室にまたがる組織学と転写学を橋渡しできる一般的な表現を得るために、大規模な事前訓練が必要である。
既存の空間転写学のクロスモーダルな事前学習アプローチは、遺伝子名または発現値の分離に依存しており、本質的な意味論の遺伝子分岐を取り除き、各遺伝子とその定量的大きさの関連を断ち切る。
さらに、画像テキストアライメントの監督を制限することにより、ロバストな画像特徴の学習に欠かせない本質的な視覚的手がかりを無視する。
画像, 遺伝子名, 表現値から共同で学習し, 空間転写学のための微粒な視覚的コンテキストを捉えた最初のコントラスト・マスク付きテキスト・イメージ事前学習フレームワークであるCoMTIPについて述べる。
ビジョンブランチはMasked Feature Modelingを使用して、隠されたパッチを再構築し、コンテキスト対応のイメージ埋め込みを学ぶ。
テキストブランチはスケーラブルなGene-Text Encoderを適用し、すべての遺伝子文を並列に処理し、各遺伝子とその数値を専用の埋め込みで豊かにし、Pair-aware Adversarial Training (PAAT)を用いて正しい遺伝子-値関連を保存している。
画像とテキストの表現は、共有InfoNCE最適化空間で整列される。
公共空間トランスクリプトミクスデータセットの実験では、CoMTIPは様々な下流タスクにおける従来の手法を超えるだけでなく、既存のアプローチでは提供されないゼロショット遺伝子発現予測も達成している。
関連論文リスト
- A Large-Scale Benchmark of Cross-Modal Learning for Histology and Gene Expression in Spatial Transcriptomics [8.854289521774483]
HESCAPEは空間転写学におけるクロスモーダルコントラスト事前学習の評価のためのベンチマークである。
空間転写学データに事前訓練された遺伝子モデルは、空間データや単純なベースラインアプローチなしで訓練された遺伝子よりも優れている。
バッチ効果は、効果的なクロスモーダルアライメントを阻害する重要な要因である。
論文 参考訳(メタデータ) (2025-08-02T21:11:36Z) - DELST: Dual Entailment Learning for Hyperbolic Image-Gene Pretraining in Spatial Transcriptomics [38.94542898899791]
画像生成事前学習のための階層をモデル化しながら,双曲表現を組み込む最初のフレームワークであるDELSTを提案する。
本フレームワークは,既存手法と比較して予測性能の向上を実現している。
論文 参考訳(メタデータ) (2025-03-02T09:00:09Z) - Multimodal contrastive learning for spatial gene expression prediction using histology images [13.47034080678041]
空間的トランスクリプトミクス表現予測のための Transformer と Densenet-121 エンコーダを用いたマルチモーダルコントラスト学習である textbfmclSTExp を提案する。
textbfmclSTExpは空間的遺伝子発現を予測するのに優れた性能を持つ。
がん特異的な過剰発現遺伝子を解釈し、免疫関連遺伝子を解明し、病理学者によって注釈された特別な空間領域を特定することには、有望であることが示されている。
論文 参考訳(メタデータ) (2024-07-11T06:33:38Z) - Spatially Resolved Gene Expression Prediction from Histology via Multi-view Graph Contrastive Learning with HSIC-bottleneck Regularization [18.554968935341236]
本稿では,HSIC-bottleneck Regularization (ST-GCHB) を用いたマルチビューグラフ比較学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-18T03:07:25Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。