論文の概要: Language models are good pathologists: using attention-based sequence
reduction and text-pretrained transformers for efficient WSI classification
- arxiv url: http://arxiv.org/abs/2211.07384v2
- Date: Sat, 30 Sep 2023 21:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:59:04.696350
- Title: Language models are good pathologists: using attention-based sequence
reduction and text-pretrained transformers for efficient WSI classification
- Title(参考訳): 言語モデルは良い病理学者である:wsi分類のための注意に基づくシーケンス縮小とテキスト事前学習トランスフォーマー
- Authors: Juan I. Pisula and Katarzyna Bozek
- Abstract要約: 全体スライド画像(WSI)解析は通常、多重インスタンス学習(MIL)問題として定式化される。
textitSeqShortは、各WSIを固定サイズと短サイズのインスタンスのシーケンスで要約するシーケンス短縮レイヤである。
本稿では,大容量のテキストデータに対して,下流トランスフォーマーアーキテクチャの事前訓練を行った場合,WSI分類性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.21756081703275998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In digital pathology, Whole Slide Image (WSI) analysis is usually formulated
as a Multiple Instance Learning (MIL) problem. Although transformer-based
architectures have been used for WSI classification, these methods require
modifications to adapt them to specific challenges of this type of image data.
Among these challenges is the amount of memory and compute required by deep
transformer models to process long inputs, such as the thousands of image
patches that can compose a WSI at $\times 10$ or $\times 20$ magnification. We
introduce \textit{SeqShort}, a multi-head attention-based sequence shortening
layer to summarize each WSI in a fixed- and short-sized sequence of instances,
that allows us to reduce the computational costs of self-attention on long
sequences, and to include positional information that is unavailable in other
MIL approaches. Furthermore, we show that WSI classification performance can be
improved when the downstream transformer architecture has been pre-trained on a
large corpus of text data, and only fine-tuning less than 0.1\% of its
parameters. We demonstrate the effectiveness of our method in lymph node
metastases classification and cancer subtype classification tasks, without the
need of designing a WSI-specific transformer nor doing in-domain pre-training,
keeping a reduced compute budget and low number of trainable parameters.
- Abstract(参考訳): デジタル病理学では、全スライド画像(WSI)解析は通常、多重インスタンス学習(MIL)問題として定式化される。
トランスフォーマーベースのアーキテクチャはwsiの分類に使われてきたが、これらの手法はこの種の画像データの特定の課題に対応するために修正を必要とする。
例えば、WSIを$\times 10$または$\times 20$の倍率で構成できる数千のイメージパッチなどである。
我々は,各WSIを固定および短大のインスタンス列にまとめるマルチヘッドアテンションベースのシーケンス短縮層である‘textit{SeqShort} を導入し,長いシーケンスに対する自己アテンションの計算コストを低減し,他のMILアプローチでは利用できない位置情報を含めることを可能にする。
さらに, 大容量のテキストデータに対して, ダウンストリームトランスフォーマーアーキテクチャを事前学習した場合には, WSI分類性能が向上し, パラメータの0.1\%未満の微調整しかできないことを示す。
リンパ節転移分類および癌サブタイプ分類における本手法の有効性を,WSI固有のトランスフォーマーを設計したり,ドメイン内事前トレーニングを行う必要がなく,計算予算の削減とトレーニング可能なパラメータ数の削減を図った。
関連論文リスト
- RetMIL: Retentive Multiple Instance Learning for Histopathological Whole Slide Image Classification [10.365234803533982]
本稿では,階層的特徴伝搬構造を通じてWSIシーケンスを処理するRetMILと呼ばれるリテーナ型MIL法を提案する。
局所レベルでは、WSIシーケンスは複数のサブシーケンスに分割され、各サブシーケンスのトークンは並列線形保持機構によって更新される。
グローバルレベルでは、サブシーケンスをグローバルシーケンスに融合し、シリアル保持機構によって更新し、最後に、グローバルアテンションプーリングによりスライドレベル表現を得る。
論文 参考訳(メタデータ) (2024-03-16T08:50:47Z) - What a Whole Slide Image Can Tell? Subtype-guided Masked Transformer for
Pathological Image Captioning [6.496515352848627]
本稿では,トランスフォーマに基づく病的キャプションのためのサブタイプ誘導型マスケプテッドトランス (SGMT) を提案する。
SGMTに付随するサブタイプ予測を導入し、トレーニングプロセスをガイドし、キャプション精度を高める。
PatchGastricADC22データセットの実験は、我々のアプローチがトランスフォーマーベースのモデルでタスクに効果的に適応することを実証している。
論文 参考訳(メタデータ) (2023-10-31T16:43:03Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Task-specific Fine-tuning via Variational Information Bottleneck for
Weakly-supervised Pathology Whole Slide Image Classification [10.243293283318415]
MIL(Multiple Instance Learning)は、デジタル・パスロジー・ホール・スライド・イメージ(WSI)分類において有望な結果を示している。
本稿では,Information Bottleneck 理論を動機とした効率的な WSI 微調整フレームワークを提案する。
我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-15T08:41:57Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Kernel Attention Transformer (KAT) for Histopathology Whole Slide Image
Classification [15.49319477737895]
病理組織学的WSI分類のためのカーネルアテンショントランスフォーマー(KAT)を提案する。
提案したKATは、WSIの局所領域の階層的コンテキスト情報をよりよく記述することができる。
病理組織学的WSI分類の課題において,提案したKATが有効かつ効果的であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-06-27T10:00:12Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z) - An Efficient Cervical Whole Slide Image Analysis Framework Based on
Multi-scale Semantic and Spatial Features using Deep Learning [2.7218168309244652]
本研究では,YOLCO(You Only Look Cytopathology Once)という名前の軽量モデルを構築するために,マルチスケール接続を充実させることにより,新しいインライン接続ネットワーク(InCNet)を設計する。
提案したモデルでは、入力サイズをメガピクセルに拡大し、平均リピートで重なり合うことなくWSIを縫合することができる。
統合マルチスケールマルチタスクの特徴を分類するためのTransformerに基づいて、実験結果は、WSI分類における従来の方法よりも0.872$ AUCスコアが良く、2.51times$速く見える。
論文 参考訳(メタデータ) (2021-06-29T06:24:55Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。