論文の概要: What a Whole Slide Image Can Tell? Subtype-guided Masked Transformer for
Pathological Image Captioning
- arxiv url: http://arxiv.org/abs/2310.20607v1
- Date: Tue, 31 Oct 2023 16:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:19:59.469068
- Title: What a Whole Slide Image Can Tell? Subtype-guided Masked Transformer for
Pathological Image Captioning
- Title(参考訳): スライド画像でわかるものって何?
病的画像キャプションのためのサブタイプ誘導マスクトランス
- Authors: Wenkang Qin, Rui Xu, Peixiang Huang, Xiaomin Wu, Heyu Zhang and Lin
Luo
- Abstract要約: 本稿では,トランスフォーマに基づく病的キャプションのためのサブタイプ誘導型マスケプテッドトランス (SGMT) を提案する。
SGMTに付随するサブタイプ予測を導入し、トレーニングプロセスをガイドし、キャプション精度を高める。
PatchGastricADC22データセットの実験は、我々のアプローチがトランスフォーマーベースのモデルでタスクに効果的に適応することを実証している。
- 参考スコア(独自算出の注目度): 6.496515352848627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pathological captioning of Whole Slide Images (WSIs), though is essential in
computer-aided pathological diagnosis, has rarely been studied due to the
limitations in datasets and model training efficacy. In this paper, we propose
a new paradigm Subtype-guided Masked Transformer (SGMT) for pathological
captioning based on Transformers, which treats a WSI as a sequence of sparse
patches and generates an overall caption sentence from the sequence. An
accompanying subtype prediction is introduced into SGMT to guide the training
process and enhance the captioning accuracy. We also present an Asymmetric
Masked Mechansim approach to tackle the large size constraint of pathological
image captioning, where the numbers of sequencing patches in SGMT are sampled
differently in the training and inferring phases, respectively. Experiments on
the PatchGastricADC22 dataset demonstrate that our approach effectively adapts
to the task with a transformer-based model and achieves superior performance
than traditional RNN-based methods. Our codes are to be made available for
further research and development.
- Abstract(参考訳): コンピュータ支援型病理診断に欠かせない全スライド画像(WSI)の病的キャプションは,データセットの限界やモデルトレーニングの有効性から研究されることは稀である。
本稿では,wsiをスパースパッチのシーケンスとして扱い,そのシーケンスから全体のキャプション文を生成する,トランスフォーマーに基づく病的キャプションのための,新しいパラダイムのサブタイプ誘導マスクトランスフォーマ(sgmt)を提案する。
SGMTに付随するサブタイプ予測を導入し、トレーニングプロセスをガイドし、キャプション精度を高める。
また, sgmtにおけるシークエンシングパッチの数を, 訓練段階と推論段階でそれぞれ異なる方法でサンプリングする, 病理画像キャプションの大規模制約に取り組むための非対称マスクメカシム法を提案する。
PatchGastricADC22データセットの実験は、我々の手法がトランスフォーマーベースのモデルでタスクに効果的に適応し、従来のRNNベースの手法よりも優れたパフォーマンスを実現することを示した。
私たちのコードは、さらなる研究と開発のために利用可能になる予定です。
関連論文リスト
- Prompt-Guided Adaptive Model Transformation for Whole Slide Image Classification [27.21493446754789]
スライド画像全体(WSI)を分類する一般的な方法として,Multiple Case Learning (MIL)が登場した。
本稿では,事前学習したモデルを病理組織学データの特定の特性にシームレスに適応するPrompt-Guided Adaptive Model Transformationフレームワークを提案する。
我々は,Camelyon16とTCGA-NSCLCの2つのデータセットに対するアプローチを厳格に評価し,様々なMILモデルに対して大幅な改善を行った。
論文 参考訳(メタデータ) (2024-03-19T08:23:12Z) - PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning [35.24716774767677]
本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
論文 参考訳(メタデータ) (2024-03-13T21:19:12Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT [1.0819408603463427]
既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて4096x4096サイズのWSIのパッチを符号化し,レポート生成のための双方向表現(BERT)モデルを構築することで,パフォーマンスとポータブルなレポート生成機構を構築することができることを示す。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
論文 参考訳(メタデータ) (2023-12-03T15:56:09Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Masked Pre-Training of Transformers for Histology Image Analysis [4.710921988115685]
デジタル病理学では、がん診断や予後予測などの応用に全スライド画像(WSI)が広く用いられている。
パッチ間の空間的関係を保ちながら、WSIの広い領域を符号化するための有望な方法として、ビジュアルトランスフォーマーモデルが登場した。
本稿では,この問題を解決するためにラベル付きデータを使わずにトランスフォーマーモデルをトレーニングするためのプレテキストタスクを提案する。
我々のモデルであるMaskHITは、トランスフォーマー出力を用いて、マスクしたパッチを再構築し、それらの位置と視覚的特徴に基づいて代表的組織学的特徴を学習する。
論文 参考訳(メタデータ) (2023-04-14T23:56:49Z) - Language models are good pathologists: using attention-based sequence
reduction and text-pretrained transformers for efficient WSI classification [0.21756081703275998]
全体スライド画像(WSI)解析は通常、多重インスタンス学習(MIL)問題として定式化される。
textitSeqShortは、各WSIを固定サイズと短サイズのインスタンスのシーケンスで要約するシーケンス短縮レイヤである。
本稿では,大容量のテキストデータに対して,下流トランスフォーマーアーキテクチャの事前訓練を行った場合,WSI分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T14:11:31Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。