論文の概要: GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology
- arxiv url: http://arxiv.org/abs/2504.01009v1
- Date: Tue, 01 Apr 2025 17:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:44.972615
- Title: GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology
- Title(参考訳): GECKO:Gigapixel Vision-Concept Contrastive Pretraining in Histopathology
- Authors: Saarthak Kapse, Pushpak Pati, Srikar Yellapragada, Srijan Das, Rajarsi R. Gupta, Joel Saltz, Dimitris Samaras, Prateek Prasanna,
- Abstract要約: 本稿では,Gigapixel Vision-Concept Knowledge Contrastive Pretrainingを提案する。
Whole Slide Image (WSI)レベルの埋め込みとConcept Priorを一致させる。
単調かつ多モーダルな事前訓練アプローチよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 26.766788349092476
- License:
- Abstract: Pretraining a Multiple Instance Learning (MIL) aggregator enables the derivation of Whole Slide Image (WSI)-level embeddings from patch-level representations without supervision. While recent multimodal MIL pretraining approaches leveraging auxiliary modalities have demonstrated performance gains over unimodal WSI pretraining, the acquisition of these additional modalities necessitates extensive clinical profiling. This requirement increases costs and limits scalability in existing WSI datasets lacking such paired modalities. To address this, we propose Gigapixel Vision-Concept Knowledge Contrastive pretraining (GECKO), which aligns WSIs with a Concept Prior derived from the available WSIs. First, we derive an inherently interpretable concept prior by computing the similarity between each WSI patch and textual descriptions of predefined pathology concepts. GECKO then employs a dual-branch MIL network: one branch aggregates patch embeddings into a WSI-level deep embedding, while the other aggregates the concept prior into a corresponding WSI-level concept embedding. Both aggregated embeddings are aligned using a contrastive objective, thereby pretraining the entire dual-branch MIL model. Moreover, when auxiliary modalities such as transcriptomics data are available, GECKO seamlessly integrates them. Across five diverse tasks, GECKO consistently outperforms prior unimodal and multimodal pretraining approaches while also delivering clinically meaningful interpretability that bridges the gap between computational models and pathology expertise. Code is made available at https://github.com/bmi-imaginelab/GECKO
- Abstract(参考訳): 多重インスタンス学習(MIL)アグリゲータの事前トレーニングにより、全スライド画像(WSI)レベルの埋め込みを、監督なしでパッチレベルの表現から導出することができる。
近年, 補助的モダリティを活用するマルチモーダルMILプレトレーニングアプローチはWSIプレトレーニングよりも高い性能を示したが, これらの追加モダリティの獲得は広範な臨床プロファイリングを必要としている。
この要件はコストを増大させ、そのようなペア化されたモダリティを欠いた既存のWSIデータセットのスケーラビリティを制限します。
これを解決するために、利用可能なWSIから派生した概念優先とWSIを整合させるGigapixel Vision-Concept Knowledge Contrastive Pretraining (GECKO)を提案する。
まず、各WSIパッチと定義済みの病理概念のテキスト記述との類似性を計算して、本質的に解釈可能な概念を導出する。
1つのブランチはパッチの埋め込みをWSIレベルのディープ埋め込みに集約し、もう1つはそれに対応するWSIレベルのディープ埋め込みに前もって概念を集約します。
双方の集約埋め込みは、対照的な目的によって整列されるため、デュアルブランチMILモデル全体を事前訓練する。
さらに、転写学データのような補助的なモダリティが利用できる場合、GECKOはそれらをシームレスに統合する。
5つの多様なタスクの中で、GECKOは、計算モデルと病理学の専門知識のギャップを埋める臨床的に有意義な解釈性を提供する一方で、常に前向きでマルチモーダルな事前訓練アプローチより優れている。
コードはhttps://github.com/bmi-imaginelab/GECKOで公開されている。
関連論文リスト
- Aggregation Schemes for Single-Vector WSI Representation Learning in Digital Pathology [2.0088541799100392]
計算病理学においてWSI(Whole Slide Images)を効率的に統合するための重要なステップは、1つの高品質な特徴ベクトル、すなわち1つの埋め込みを各WSIに割り当てることである。
本稿では,最近開発された複数の集約手法のWSI検索性能を評価する。
論文 参考訳(メタデータ) (2025-01-29T18:14:51Z) - Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:49:34Z) - MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning [11.717352903130411]
多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類のための標準パラダイムとなっている。
トレーニングデータの欠如と稀な疾患の存在は,これらの方法に重大な課題をもたらす。
本稿では、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:25:51Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based
Tumor Classification [5.121989578393729]
全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。
粗粒度のラベルは容易にアクセスでき、WSI分類がマルチインスタンス学習(MIL)の理想的なユースケースとなる。
埋め込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
論文 参考訳(メタデータ) (2023-07-14T17:06:49Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Cluster-to-Conquer: A Framework for End-to-End Multi-Instance Learning
for Whole Slide Image Classification [7.876654642325896]
本稿では,WSI (Whole Slide Images) からのパッチを$k$-groupsにクラスタリングし,各グループから$k'$のパッチをサンプルし,スライドレベルの予測に適応的な注意機構を用いるエンドツーエンドフレームワークを提案する。
このフレームワークは、スライドレベルのクロスエントロピー、パッチレベルのクロスエントロピー、KLの分散損失に最適化されている。
論文 参考訳(メタデータ) (2021-03-19T04:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。