論文の概要: A self-supervised framework for learning whole slide representations
- arxiv url: http://arxiv.org/abs/2402.06188v2
- Date: Thu, 23 May 2024 19:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 23:07:01.672256
- Title: A self-supervised framework for learning whole slide representations
- Title(参考訳): スライド表現全体を学習するための自己教師型フレームワーク
- Authors: Xinhai Hou, Cheng Jiang, Akhil Kondepudi, Yiwei Lyu, Asadur Chowdury, Honglak Lee, Todd C. Hollon,
- Abstract要約: 我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
- 参考スコア(独自算出の注目度): 52.774822784847565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole slide imaging is fundamental to biomedical microscopy and computational pathology. Previously, learning representations for gigapixel-sized whole slide images (WSIs) has relied on multiple instance learning with weak labels, which do not annotate the diverse morphologic features and spatial heterogeneity of WSIs. A high-quality self-supervised learning method for WSIs would provide transferable visual representations for downstream computational pathology tasks, without the need for dense annotations. We present Slide Pre-trained Transformers (SPT) for gigapixel-scale self-supervision of WSIs. Treating WSI patches as tokens, SPT combines data transformation strategies from language and vision modeling into a general and unified framework to generate views of WSIs for self-supervised pretraining. SPT leverages the inherent regional heterogeneity, histologic feature variability, and information redundancy within WSIs to learn high-quality whole slide representations. We benchmark SPT visual representations on five diagnostic tasks across three biomedical microscopy datasets. SPT significantly outperforms baselines for histopathologic diagnosis, cancer subtyping, and genetic mutation prediction. Finally, we demonstrate that SPT consistently improves whole slide representations when using off-the-shelf, in-domain, and foundational patch encoders for whole slide multiple instance learning.
- Abstract(参考訳): 全スライドイメージングは、生体顕微鏡と計算病理学の基礎となる。
これまで、ギガピクセルサイズのスライド画像(WSI)の学習表現は、様々な形態的特徴やWSIの空間的不均一性を注釈しない弱いラベルを持つ複数のインスタンス学習に依存してきた。
WSIの高品質な自己教師付き学習手法は、高密度アノテーションを必要とせず、下流の計算病理タスクに伝達可能な視覚表現を提供する。
ギガピクセル規模のWSIの自己スーパービジョンのためのSlide Pre-trained Transformer(SPT)を提案する。
WSIパッチをトークンとして扱うことで、SPTは言語とビジョンモデリングからのデータ変換戦略を総合的なフレームワークに統合し、自己監督型事前トレーニングのためのWSIのビューを生成する。
SPTは、WSI内の固有の地域的不均一性、組織学的特徴変数、および情報冗長性を活用して、高品質なスライド表現を学習する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
SPTは、病理組織学的診断、癌サブタイプ、遺伝子変異予測のベースラインを著しく上回る。
最後に、SPTは、オフザシェルフ、インドメイン、基礎的なパッチエンコーダを使用して、スライドの複数インスタンス学習全体に対して、スライド表現を一貫して改善することを示した。
関連論文リスト
- WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering [6.315841446240698]
生成的視覚的質問応答により,スライド画像全体(WSI)を解釈する新しい枠組みを提案する。
WSI-VQAは、様々なスライドレベルのタスクを質問応答パターンで記述することで、普遍性を示す。
8672のスライドレベル質問応答対と977のWSIを含むWSI-VQAデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-08T04:37:32Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Glioma subtype classification from histopathological images using
in-domain and out-of-domain transfer learning: An experimental study [9.161480191416551]
成人型びまん性グリオーマのコンピュータ支援分類のための様々な伝達学習戦略と深層学習アーキテクチャを比較した。
半教師付き学習手法を提案し、細調整されたモデルを用いて、スライド画像全体の無注釈領域のラベルを予測する。
モデルはその後、前のステップで決定された接地構造ラベルと弱いラベルを用いて再訓練され、標準のドメイン間転送学習と比較して優れた性能を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:22:17Z) - Context-Aware Self-Supervised Learning of Whole Slide Images [0.0]
本研究では, 新たな2段階学習手法を提案する。
WSI内のすべての領域間の依存関係をキャプチャするグラフ表現は非常に直感的です。
スライド全体はグラフとして表示され、ノードはWSIのパッチに対応する。
提案したフレームワークは、前立腺癌と腎癌からのWSIを用いてテストされる。
論文 参考訳(メタデータ) (2023-06-07T20:23:05Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。