論文の概要: ST-Align: A Multimodal Foundation Model for Image-Gene Alignment in Spatial Transcriptomics
- arxiv url: http://arxiv.org/abs/2411.16793v1
- Date: Mon, 25 Nov 2024 09:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:31:28.330207
- Title: ST-Align: A Multimodal Foundation Model for Image-Gene Alignment in Spatial Transcriptomics
- Title(参考訳): ST-Align:空間転写学における画像生成アライメントのためのマルチモーダル基礎モデル
- Authors: Yuxiang Lin, Ling Luo, Ying Chen, Xushi Zhang, Zihui Wang, Wenxian Yang, Mengsha Tong, Rongshan Yu,
- Abstract要約: 空間転写学 (Spatial transcriptomics, ST) は, 高解像度の病理像と全スライディングスケールの個々の部位における全スライディング表現プロファイルを提供する。
ST-Alignは、空間コンテキストを組み込んだ画像生成ペアを深く整合させる、ST用に設計された最初の基礎モデルである。
ST-AlignはSTコンテキストに合わせた特殊なエンコーダを採用しており、さらにマルチモーダル核融合のためのアテンションベース核融合ネットワーク(ABFN)を採用している。
- 参考スコア(独自算出の注目度): 6.680197957317297
- License:
- Abstract: Spatial transcriptomics (ST) provides high-resolution pathological images and whole-transcriptomic expression profiles at individual spots across whole-slide scales. This setting makes it an ideal data source to develop multimodal foundation models. Although recent studies attempted to fine-tune visual encoders with trainable gene encoders based on spot-level, the absence of a wider slide perspective and spatial intrinsic relationships limits their ability to capture ST-specific insights effectively. Here, we introduce ST-Align, the first foundation model designed for ST that deeply aligns image-gene pairs by incorporating spatial context, effectively bridging pathological imaging with genomic features. We design a novel pretraining framework with a three-target alignment strategy for ST-Align, enabling (1) multi-scale alignment across image-gene pairs, capturing both spot- and niche-level contexts for a comprehensive perspective, and (2) cross-level alignment of multimodal insights, connecting localized cellular characteristics and broader tissue architecture. Additionally, ST-Align employs specialized encoders tailored to distinct ST contexts, followed by an Attention-Based Fusion Network (ABFN) for enhanced multimodal fusion, effectively merging domain-shared knowledge with ST-specific insights from both pathological and genomic data. We pre-trained ST-Align on 1.3 million spot-niche pairs and evaluated its performance through two downstream tasks across six datasets, demonstrating superior zero-shot and few-shot capabilities. ST-Align highlights the potential for reducing the cost of ST and providing valuable insights into the distinction of critical compositions within human tissue.
- Abstract(参考訳): 空間転写学 (Spatial transcriptomics, ST) は, 高解像度の病理像と全スライディングスケールの個々の部位における全スライディング表現プロファイルを提供する。
この設定により、マルチモーダル基盤モデルを開発するのに理想的なデータソースとなる。
近年の研究では、スポットレベルに基づく訓練可能な遺伝子エンコーダを用いた視覚的エンコーダの微調整が試みられているが、より広いスライス視点と空間内在的関係の欠如は、ST固有の洞察を効果的に捉える能力を制限している。
本稿では,STのための最初の基盤モデルST-Alignについて紹介する。
我々は,ST-Alignのための3つのターゲットアライメント戦略を備えた新しい事前学習フレームワークを設計し,(1)画像-遺伝子対間のマルチスケールアライメント,2)スポットレベルとニッチレベルのコンテキストを総合的な視点で捉え,(2)マルチモーダルな洞察のクロスレベルアライメント,そして局所的な細胞特性とより広い組織構造を結びつける。
さらにST-Alignは、異なるSTコンテキストに合わせた特殊なエンコーダを採用しており、その後、マルチモーダル・フュージョン・ネットワーク (ABFN) が拡張され、ドメイン共有の知識と、病理学的およびゲノム学的データの両方からST固有の知見を効果的に融合する。
我々は、13万のスポットニッチペアでST-Alignを事前トレーニングし、6つのデータセットにわたる2つのダウンストリームタスクを通じてパフォーマンスを評価し、優れたゼロショットと少数ショット機能を示しました。
ST-Alignは、STのコストを削減し、ヒト組織における臨界成分の区別に関する貴重な洞察を提供する可能性を強調している。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。
この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。
2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文 参考訳(メタデータ) (2024-11-16T08:54:27Z) - Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology Images [1.3124513975412255]
空間転写学(spatial transcriptomics, ST)は、空間的文脈を保ちながら、転写産物全体の遺伝子発現プロファイリングを可能にする。
現在の空間クラスタリング法では、高解像度の組織像と遺伝子発現データを完全に統合することができない。
本稿では、遺伝子発現データと組織像の特徴を融合した、新しいコントラスト学習に基づく深層学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T00:32:24Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attention for Superior Receptive Fields [19.71033340093199]
本稿では,医療画像のセグメンテーションの限界を克服する新しいアーキテクチャであるspective+Unetを提案する。
このフレームワークは ENLTB という名前の効率的な非局所トランスフォーマーブロックを組み込んでおり、これはカーネル関数近似を利用して、効率的な長距離依存性キャプチャを行う。
ACDCとデータセットに関する実験結果から,提案したパースペクティブ+Unetの有効性が示された。
論文 参考訳(メタデータ) (2024-06-20T07:17:39Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - SIAN: Style-Guided Instance-Adaptive Normalization for Multi-Organ
Histopathology Image Synthesis [63.845552349914186]
本研究では,異なる臓器に対して,現実的な色分布とテクスチャを合成するためのスタイル誘導型インスタンス適応正規化(SIAN)を提案する。
4つのフェーズは一緒に動作し、生成ネットワークに統合され、イメージセマンティクス、スタイル、インスタンスレベルのバウンダリを埋め込む。
論文 参考訳(メタデータ) (2022-09-02T16:45:46Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Contextual Information Enhanced Convolutional Neural Networks for
Retinal Vessel Segmentation in Color Fundus Images [0.0]
自動網膜血管セグメンテーションシステムは、臨床診断及び眼科研究を効果的に促進することができる。
ディープラーニングベースの手法が提案され、いくつかのカスタマイズされたモジュールが有名なエンコーダデコーダアーキテクチャU-netに統合されている。
その結果,提案手法は先行技術よりも優れ,感性/リコール,F1スコア,MCCの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-03-25T06:10:47Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。