論文の概要: A self-supervised framework for learning whole slide representations
- arxiv url: http://arxiv.org/abs/2402.06188v1
- Date: Fri, 9 Feb 2024 05:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:52:00.963819
- Title: A self-supervised framework for learning whole slide representations
- Title(参考訳): 全スライド表現学習のための自己教師付きフレームワーク
- Authors: Xinhai Hou, Cheng Jiang, Akhil Kondepudi, Yiwei Lyu, Asadur Zaman
Chowdury, Honglak Lee, Todd C. Hollon
- Abstract要約: 全体スライド画像(WSI)は、そのサイズによって複雑なコンピュータビジョンの課題を示す。
自己教師付き表現学習は、下流診断タスクにおける高品質なWSI視覚特徴学習を実現することができる。
ギガピクセル規模のWSIの自己監督のための汎用的な自己教師型全スライド学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.121381765372334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole slide imaging is fundamental to biomedical microscopy and computational
pathology. However, whole slide images (WSIs) present a complex computer vision
challenge due to their gigapixel size, diverse histopathologic features,
spatial heterogeneity, and limited/absent data annotations. These challenges
highlight that supervised training alone can result in suboptimal whole slide
representations. Self-supervised representation learning can achieve
high-quality WSI visual feature learning for downstream diagnostic tasks, such
as cancer diagnosis or molecular genetic prediction. Here, we present a general
self-supervised whole slide learning (S3L) framework for gigapixel-scale
self-supervision of WSIs. S3L combines data transformation strategies from
transformer-based vision and language modeling into a single unified framework
to generate paired views for self-supervision. S3L leverages the inherent
regional heterogeneity, histologic feature variability, and information
redundancy within WSIs to learn high-quality whole-slide representations. We
benchmark S3L visual representations on two diagnostic tasks for two biomedical
microscopy modalities. S3L significantly outperforms WSI baselines for cancer
diagnosis and genetic mutation prediction. Additionally, S3L achieves good
performance using both in-domain and out-of-distribution patch encoders,
demonstrating good flexibility and generalizability.
- Abstract(参考訳): 全スライドイメージングは生体顕微鏡と計算病理学の基礎となる。
しかしながら、全スライド画像(wsis)は、そのギガピクセルサイズ、多様な病理組織学的特徴、空間的多様性、限定的/抽象的なデータアノテーションにより複雑なコンピュータビジョン課題を呈する。
これらの課題は、教師付きトレーニングだけでスライド全体を表現することができることを強調している。
自己教師付き表現学習は、がん診断や分子遺伝予測などの下流診断タスクにおいて高品質なWSI視覚特徴学習を実現することができる。
本稿では,WSIのギガピクセル規模の自己監督のための汎用自己教師型全スライド学習(S3L)フレームワークを提案する。
s3lはトランスフォーマーベースのビジョンから言語モデリングへのデータ変換戦略を単一の統一フレームワークに統合し、自己スーパービジョンのためのペアビューを生成する。
S3Lは、WSI内の固有の地域的不均一性、組織学的特徴変数、および情報冗長性を活用して、高品質な全スライディング表現を学習する。
2つの診断課題におけるs3lの視覚的表現のベンチマークを行った。
S3Lは癌診断と遺伝子変異予測においてWSIベースラインを著しく上回る。
さらに、S3Lはドメイン内および配布外パッチエンコーダの両方を使用して優れたパフォーマンスを実現し、柔軟性と一般化性を示している。
関連論文リスト
- WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering [6.315841446240698]
生成的視覚的質問応答により,スライド画像全体(WSI)を解釈する新しい枠組みを提案する。
WSI-VQAは、様々なスライドレベルのタスクを質問応答パターンで記述することで、普遍性を示す。
8672のスライドレベル質問応答対と977のWSIを含むWSI-VQAデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-08T04:37:32Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Glioma subtype classification from histopathological images using
in-domain and out-of-domain transfer learning: An experimental study [9.161480191416551]
成人型びまん性グリオーマのコンピュータ支援分類のための様々な伝達学習戦略と深層学習アーキテクチャを比較した。
半教師付き学習手法を提案し、細調整されたモデルを用いて、スライド画像全体の無注釈領域のラベルを予測する。
モデルはその後、前のステップで決定された接地構造ラベルと弱いラベルを用いて再訓練され、標準のドメイン間転送学習と比較して優れた性能を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:22:17Z) - Context-Aware Self-Supervised Learning of Whole Slide Images [0.0]
本研究では, 新たな2段階学習手法を提案する。
WSI内のすべての領域間の依存関係をキャプチャするグラフ表現は非常に直感的です。
スライド全体はグラフとして表示され、ノードはWSIのパッチに対応する。
提案したフレームワークは、前立腺癌と腎癌からのWSIを用いてテストされる。
論文 参考訳(メタデータ) (2023-06-07T20:23:05Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。