論文の概要: PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning
- arxiv url: http://arxiv.org/abs/2403.08967v1
- Date: Wed, 13 Mar 2024 21:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:27:10.603135
- Title: PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning
- Title(参考訳): PathM3:全スライド画像分類とキャプションのためのマルチモーダルマルチタスクマルチインスタンス学習フレームワーク
- Authors: Qifeng Zhou, Wenliang Zhong, Yuzhi Guo, Michael Xiao, Hehuan Ma, Junzhou Huang,
- Abstract要約: 本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
- 参考スコア(独自算出の注目度): 35.24716774767677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of computational histopathology, both whole slide images (WSIs) and diagnostic captions provide valuable insights for making diagnostic decisions. However, aligning WSIs with diagnostic captions presents a significant challenge. This difficulty arises from two main factors: 1) Gigapixel WSIs are unsuitable for direct input into deep learning models, and the redundancy and correlation among the patches demand more attention; and 2) Authentic WSI diagnostic captions are extremely limited, making it difficult to train an effective model. To overcome these obstacles, we present PathM3, a multimodal, multi-task, multiple instance learning (MIL) framework for WSI classification and captioning. PathM3 adapts a query-based transformer to effectively align WSIs with diagnostic captions. Given that histopathology visual patterns are redundantly distributed across WSIs, we aggregate each patch feature with MIL method that considers the correlations among instances. Furthermore, our PathM3 overcomes data scarcity in WSI-level captions by leveraging limited WSI diagnostic caption data in the manner of multi-task joint learning. Extensive experiments with improved classification accuracy and caption generation demonstrate the effectiveness of our method on both WSI classification and captioning task.
- Abstract(参考訳): コンピュータ病理学の分野では、スライド画像全体(WSI)と診断キャプションの両方が診断決定に有用な洞察を与えている。
しかし、WSIと診断キャプションを合わせることは重大な課題である。
この困難は2つの主な要因から生じる。
1)ギガピクセルWSIは深層学習モデルへの直接入力には不適であり、パッチ間の冗長性と相関性はより注意が必要である。
2) 正確なWSI診断キャプションは極めて限られており, 効果的なモデルの訓練が困難である。
これらの障害を克服するために、WSI分類とキャプションのためのマルチモーダル・マルチタスク・マルチインスタンス学習(MIL)フレームワークであるPathM3を提案する。
PathM3はクエリベースのトランスフォーマーを適用して、WSIを診断キャプションと効果的に調整する。
病理組織学的視覚パターンがWSI間で冗長に分散されていることを考慮し、各パッチ特徴をインスタンス間の相関を考慮に入れたMILメソッドで集約する。
さらに,WSIレベルの字幕におけるデータ不足を克服するために,多タスク共同学習の方法として限定的なWSI診断字幕データを活用する。
分類精度とキャプション生成を向上した広範囲な実験により,WSI分類とキャプションタスクにおける本手法の有効性が示された。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning [11.717352903130411]
多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類のための標準パラダイムとなっている。
トレーニングデータの欠如と稀な疾患の存在は,これらの方法に重大な課題をもたらす。
本稿では、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:25:51Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - A Dual-branch Self-supervised Representation Learning Framework for
Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。
これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。
マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文 参考訳(メタデータ) (2023-03-20T10:57:28Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Improving Interpretability for Computer-aided Diagnosis tools on Whole
Slide Imaging with Multiple Instance Learning and Gradient-based Explanations [2.5461557112299773]
我々はWSI分類アーキテクチャの設計を形式化し、断片的解釈可能性アプローチを提案する。
本研究の目的は,タイルレベルスコアに基づいて決定を下す方法,タイルスコアがどう決定されるか,どの機能を用いてタスクに関連があるかを説明することである。
そこで本研究では,AUCにおけるタイルレベルの分類性能を29%以上向上させる,新しい解釈可能性スライドレベルの熱マップを提案する。
論文 参考訳(メタデータ) (2020-09-29T13:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。