論文の概要: PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning
- arxiv url: http://arxiv.org/abs/2403.08967v1
- Date: Wed, 13 Mar 2024 21:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:27:10.603135
- Title: PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning
- Title(参考訳): PathM3:全スライド画像分類とキャプションのためのマルチモーダルマルチタスクマルチインスタンス学習フレームワーク
- Authors: Qifeng Zhou, Wenliang Zhong, Yuzhi Guo, Michael Xiao, Hehuan Ma, Junzhou Huang,
- Abstract要約: 本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
- 参考スコア(独自算出の注目度): 35.24716774767677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of computational histopathology, both whole slide images (WSIs) and diagnostic captions provide valuable insights for making diagnostic decisions. However, aligning WSIs with diagnostic captions presents a significant challenge. This difficulty arises from two main factors: 1) Gigapixel WSIs are unsuitable for direct input into deep learning models, and the redundancy and correlation among the patches demand more attention; and 2) Authentic WSI diagnostic captions are extremely limited, making it difficult to train an effective model. To overcome these obstacles, we present PathM3, a multimodal, multi-task, multiple instance learning (MIL) framework for WSI classification and captioning. PathM3 adapts a query-based transformer to effectively align WSIs with diagnostic captions. Given that histopathology visual patterns are redundantly distributed across WSIs, we aggregate each patch feature with MIL method that considers the correlations among instances. Furthermore, our PathM3 overcomes data scarcity in WSI-level captions by leveraging limited WSI diagnostic caption data in the manner of multi-task joint learning. Extensive experiments with improved classification accuracy and caption generation demonstrate the effectiveness of our method on both WSI classification and captioning task.
- Abstract(参考訳): コンピュータ病理学の分野では、スライド画像全体(WSI)と診断キャプションの両方が診断決定に有用な洞察を与えている。
しかし、WSIと診断キャプションを合わせることは重大な課題である。
この困難は2つの主な要因から生じる。
1)ギガピクセルWSIは深層学習モデルへの直接入力には不適であり、パッチ間の冗長性と相関性はより注意が必要である。
2) 正確なWSI診断キャプションは極めて限られており, 効果的なモデルの訓練が困難である。
これらの障害を克服するために、WSI分類とキャプションのためのマルチモーダル・マルチタスク・マルチインスタンス学習(MIL)フレームワークであるPathM3を提案する。
PathM3はクエリベースのトランスフォーマーを適用して、WSIを診断キャプションと効果的に調整する。
病理組織学的視覚パターンがWSI間で冗長に分散されていることを考慮し、各パッチ特徴をインスタンス間の相関を考慮に入れたMILメソッドで集約する。
さらに,WSIレベルの字幕におけるデータ不足を克服するために,多タスク共同学習の方法として限定的なWSI診断字幕データを活用する。
分類精度とキャプション生成を向上した広範囲な実験により,WSI分類とキャプションタスクにおける本手法の有効性が示された。
関連論文リスト
- Generalizable Whole Slide Image Classification with Fine-Grained
Visual-Semantic Interaction [18.76437380950314]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - A self-supervised framework for learning whole slide representations [55.121381765372334]
全体スライド画像(WSI)は、そのサイズによって複雑なコンピュータビジョンの課題を示す。
自己教師付き表現学習は、下流診断タスクにおける高品質なWSI視覚特徴学習を実現することができる。
ギガピクセル規模のWSIの自己監督のための汎用的な自己教師型全スライド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - What a Whole Slide Image Can Tell? Subtype-guided Masked Transformer for
Pathological Image Captioning [6.496515352848627]
本稿では,トランスフォーマに基づく病的キャプションのためのサブタイプ誘導型マスケプテッドトランス (SGMT) を提案する。
SGMTに付随するサブタイプ予測を導入し、トレーニングプロセスをガイドし、キャプション精度を高める。
PatchGastricADC22データセットの実験は、我々のアプローチがトランスフォーマーベースのモデルでタスクに効果的に適応することを実証している。
論文 参考訳(メタデータ) (2023-10-31T16:43:03Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - A Dual-branch Self-supervised Representation Learning Framework for
Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。
これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。
マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文 参考訳(メタデータ) (2023-03-20T10:57:28Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Improving Interpretability for Computer-aided Diagnosis tools on Whole
Slide Imaging with Multiple Instance Learning and Gradient-based Explanations [2.5461557112299773]
我々はWSI分類アーキテクチャの設計を形式化し、断片的解釈可能性アプローチを提案する。
本研究の目的は,タイルレベルスコアに基づいて決定を下す方法,タイルスコアがどう決定されるか,どの機能を用いてタスクに関連があるかを説明することである。
そこで本研究では,AUCにおけるタイルレベルの分類性能を29%以上向上させる,新しい解釈可能性スライドレベルの熱マップを提案する。
論文 参考訳(メタデータ) (2020-09-29T13:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。