論文の概要: $MV_{Hybrid}$: Improving Spatial Transcriptomics Prediction with Hybrid State Space-Vision Transformer Backbone in Pathology Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2508.00383v1
- Date: Fri, 01 Aug 2025 07:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.772107
- Title: $MV_{Hybrid}$: Improving Spatial Transcriptomics Prediction with Hybrid State Space-Vision Transformer Backbone in Pathology Vision Foundation Models
- Title(参考訳): $MV_{Hybrid}$: 病的ビジョン基礎モデルにおけるハイブリッド状態空間振動変換器バックボーンによる空間トラノドミクス予測の改善
- Authors: Won June Cho, Hongjun Yoon, Daeky Jeong, Hyeongyeol Lim, Yosep Chong,
- Abstract要約: ビジョントランスフォーマー(ViT)のバックボーンをベースとした病理学における現在のビジョン基礎モデル(VFM)は、臨床基準以下である。
状態空間モデル(SSM)とViTを組み合わせたハイブリッドバックボーンアーキテクチャであるMV_Hybrid$を紹介する。
LOSO評価では、$MV_Hybrid$57%高い相関性を示し、性能劣化は43%小さい。
- 参考スコア(独自算出の注目度): 2.145454038929631
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial transcriptomics reveals gene expression patterns within tissue context, enabling precision oncology applications such as treatment response prediction, but its high cost and technical complexity limit clinical adoption. Predicting spatial gene expression (biomarkers) from routine histopathology images offers a practical alternative, yet current vision foundation models (VFMs) in pathology based on Vision Transformer (ViT) backbones perform below clinical standards. Given that VFMs are already trained on millions of diverse whole slide images, we hypothesize that architectural innovations beyond ViTs may better capture the low-frequency, subtle morphological patterns correlating with molecular phenotypes. By demonstrating that state space models initialized with negative real eigenvalues exhibit strong low-frequency bias, we introduce $MV_{Hybrid}$, a hybrid backbone architecture combining state space models (SSMs) with ViT. We compare five other different backbone architectures for pathology VFMs, all pretrained on identical colorectal cancer datasets using the DINOv2 self-supervised learning method. We evaluate all pretrained models using both random split and leave-one-study-out (LOSO) settings of the same biomarker dataset. In LOSO evaluation, $MV_{Hybrid}$ achieves 57% higher correlation than the best-performing ViT and shows 43% smaller performance degradation compared to random split in gene expression prediction, demonstrating superior performance and robustness, respectively. Furthermore, $MV_{Hybrid}$ shows equal or better downstream performance in classification, patch retrieval, and survival prediction tasks compared to that of ViT, showing its promise as a next-generation pathology VFM backbone. Our code is publicly available at: https://github.com/deepnoid-ai/MVHybrid.
- Abstract(参考訳): 空間転写学は、組織コンテキスト内の遺伝子発現パターンを明らかにし、治療反応予測などの精度の高い腫瘍学応用を可能にするが、そのコストと技術的複雑さは臨床応用を制限している。
日常的な病理画像から空間遺伝子発現(バイオマーカー)を予測することは、視覚トランスフォーマー(ViT)のバックボーンをベースとした病態において、現実的な代替手段を提供するが、現在の視覚基盤モデル(VFM)は臨床基準以下である。
VFMは、すでに何百万もの多様なスライド画像で訓練されているので、VT以外のアーキテクチャの革新は、分子の表現型に関連する低周波で微妙な形態的パターンをよりよく捉えているのではないか、という仮説を立てる。
負の実固有値で初期化された状態空間モデルが強い低周波バイアスを示すことを示すことによって、状態空間モデル(SSM)とViTを組み合わせたハイブリッドバックボーンアーキテクチャである$MV_{Hybrid}$を導入する。
我々は,DINOv2自己教師型学習法を用いて,同じ大腸癌データセット上で事前訓練された病理組織VFMのバックボーンアーキテクチャを,他の5つの異なるバックボーンアーキテクチャと比較した。
我々は、同じバイオマーカーデータセットのランダムスプリットとLeft-one-Study-out(LOSO)設定を用いて、事前訓練された全てのモデルを評価する。
LOSO評価では、MV_{Hybrid$は、最高のパフォーマンスのViTよりも57%高い相関を達成し、遺伝子発現予測のランダムスプリットよりも43%低い性能低下を示し、それぞれ優れた性能とロバスト性を示す。
さらに、$MV_{Hybrid}$は、VTと比較して、分類、パッチ検索、生存予測タスクにおいて、下流のパフォーマンスが等しく良いか良いかを示す。
私たちのコードは、https://github.com/deepnoid-ai/MVHybrid.comで公開されています。
関連論文リスト
- Glioblastoma Overall Survival Prediction With Vision Transformers [6.318465743962574]
グリオ芽腫は最も攻撃的で一般的な脳腫瘍の1つで、生存期間は10~15ヶ月である。
本研究では,MRI画像を用いた総合生存(OS)予測のための新しい人工知能(AI)手法を提案する。
我々は視覚変換器(ViT)を用いてMRI画像から直接隠れた特徴を抽出し,腫瘍のセグメンテーションの必要性を排除した。
提案したモデルは、BRATSデータセットで評価され、テストセット上で62.5%の精度を達成した。
論文 参考訳(メタデータ) (2025-08-04T13:59:57Z) - Comparative Analysis of Deep Learning Strategies for Hypertensive Retinopathy Detection from Fundus Images: From Scratch and Pre-trained Models [5.860609259063137]
本稿では,眼底画像から高血圧性網膜症を検出するためのディープラーニング手法の比較分析を行った。
我々は、カスタムCNN、トレーニング済みトランスフォーマーベースモデルのスイート、AutoMLソリューションの3つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2025-06-14T13:11:33Z) - Embedding Radiomics into Vision Transformers for Multimodal Medical Image Classification [10.627136212959396]
ビジョントランスフォーマー(ViT)は、自己注意を通じて長距離依存をモデル化することで、畳み込みモデルの強力な代替手段を提供する。
本稿では、放射能特徴とデータ駆動型視覚埋め込みをViTバックボーン内に組み込んだRE-ViT(Radiomics-Embedded Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2025-04-15T06:55:58Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - Equipping Computational Pathology Systems with Artifact Processing Pipelines: A Showcase for Computation and Performance Trade-offs [0.7226586370054761]
損傷組織, ぼかし, 折りたたみ組織, 気泡, 組織学的に無関係な血液を含む5つの重要な人工物を検出するための専門家(MoE)の混合手法を提案する。
2つのMoEと2つのマルチクラスモデルであるDCNNとビジョントランスフォーマーを用いたDLパイプラインを開発した。
提案されたMoEは86.15%のF1と97.93%の感度スコアを持ち、ViTを用いたMoEよりも推論の計算コストが低い。
論文 参考訳(メタデータ) (2024-03-12T15:22:05Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。