論文の概要: Scaling Vision Transformers to Gigapixel Images via Hierarchical
Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2206.02647v1
- Date: Mon, 6 Jun 2022 14:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:12:02.210522
- Title: Scaling Vision Transformers to Gigapixel Images via Hierarchical
Self-Supervised Learning
- Title(参考訳): 階層型自己監督学習による視覚変換器のギガピクセル画像へのスケーリング
- Authors: Richard J. Chen, Chengkuan Chen, Yicong Li, Tiffany Y. Chen, Andrew D.
Trister, Rahul G. Krishnan, Faisal Mahmood
- Abstract要約: 階層画像ピラミッドトランス(HIPT)と呼ばれる新しいViTアーキテクチャを導入する。
HIPTは10,678ギガピクセルのWSI、408,218の4096x4096画像、104Mの256x256画像を用いて、33種類のがんに対して事前訓練されている。
我々は,9つのスライドレベルタスクのHIPT表現をベンチマークし,階層的事前学習によるHIPTが,がんのサブタイピングと生存予測の最先端手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 7.7779040222396585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) and their multi-scale and hierarchical variations
have been successful at capturing image representations but their use has been
generally studied for low-resolution images (e.g. - 256x256, 384384). For
gigapixel whole-slide imaging (WSI) in computational pathology, WSIs can be as
large as 150000x150000 pixels at 20X magnification and exhibit a hierarchical
structure of visual tokens across varying resolutions: from 16x16 images
capture spatial patterns among cells, to 4096x4096 images characterizing
interactions within the tissue microenvironment. We introduce a new ViT
architecture called the Hierarchical Image Pyramid Transformer (HIPT), which
leverages the natural hierarchical structure inherent in WSIs using two levels
of self-supervised learning to learn high-resolution image representations.
HIPT is pretrained across 33 cancer types using 10,678 gigapixel WSIs, 408,218
4096x4096 images, and 104M 256x256 images. We benchmark HIPT representations on
9 slide-level tasks, and demonstrate that: 1) HIPT with hierarchical
pretraining outperforms current state-of-the-art methods for cancer subtyping
and survival prediction, 2) self-supervised ViTs are able to model important
inductive biases about the hierarchical structure of phenotypes in the tumor
microenvironment.
- Abstract(参考訳): 視覚変換器(ViT)とそのマルチスケールおよび階層的なバリエーションは画像表現のキャプチャに成功しているが、低解像度画像(例えば-256x256, 384384)に対して一般的に研究されている。
計算病理学におけるギガピクセル全スライディングイメージング(WSI)では、WSIは20倍の倍率で150000x150000ピクセルで、様々な解像度で視覚トークンの階層構造を示すことができる:16x16画像は細胞間の空間パターンを捉え、4096x4096画像は組織マイクロ環境内の相互作用を特徴づける。
階層型画像ピラミッド変換(HIPT)と呼ばれる新しいViTアーキテクチャを導入し、WSIに固有の自然な階層構造を利用して2段階の自己教師あり学習を行い、高解像度の画像表現を学習する。
HIPTは10,678ギガピクセルのWSI、408,218の4096x4096画像、104Mの256x256画像を使用して33種類のがん種で事前訓練されている。
9つのスライドレベルタスクでHIPT表現をベンチマークし、それを実証する。
1)階層的事前訓練によるHIPTは,癌サブタイプと生存予測の最先端手法より優れていた。
2) 自己監督型 ViT は腫瘍微小環境における表現型の階層構造に関する重要な誘導バイアスをモデル化することができる。
関連論文リスト
- A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT [1.0819408603463427]
既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて4096x4096サイズのWSIのパッチを符号化し,レポート生成のための双方向表現(BERT)モデルを構築することで,パフォーマンスとポータブルなレポート生成機構を構築することができることを示す。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
論文 参考訳(メタデータ) (2023-12-03T15:56:09Z) - Automatic Report Generation for Histopathology images using pre-trained
Vision Transformers [1.2781698000674653]
既存の事前学習型視覚変換器を用いて4096x4096サイズのパッチをWSI(Whole Slide Image)にエンコードし、それをエンコーダおよびLSTMデコーダとしてレポート生成に使用することを示す。
また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなく、レポート生成にも有用であることを示すことができる。
論文 参考訳(メタデータ) (2023-11-10T16:48:24Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。