Fugu-MT 論文翻訳(概要): PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning

論文の概要: PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning

arxiv url: http://arxiv.org/abs/2403.08967v1
Date: Wed, 13 Mar 2024 21:19:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 22:27:10.603135
Title: PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning
Title（参考訳）: PathM3:全スライド画像分類とキャプションのためのマルチモーダルマルチタスクマルチインスタンス学習フレームワーク
Authors: Qifeng Zhou, Wenliang Zhong, Yuzhi Guo, Michael Xiao, Hehuan Ma, Junzhou Huang,
Abstract要約: 本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
参考スコア（独自算出の注目度）: 35.24716774767677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the field of computational histopathology, both whole slide images (WSIs) and diagnostic captions provide valuable insights for making diagnostic decisions. However, aligning WSIs with diagnostic captions presents a significant challenge. This difficulty arises from two main factors: 1) Gigapixel WSIs are unsuitable for direct input into deep learning models, and the redundancy and correlation among the patches demand more attention; and 2) Authentic WSI diagnostic captions are extremely limited, making it difficult to train an effective model. To overcome these obstacles, we present PathM3, a multimodal, multi-task, multiple instance learning (MIL) framework for WSI classification and captioning. PathM3 adapts a query-based transformer to effectively align WSIs with diagnostic captions. Given that histopathology visual patterns are redundantly distributed across WSIs, we aggregate each patch feature with MIL method that considers the correlations among instances. Furthermore, our PathM3 overcomes data scarcity in WSI-level captions by leveraging limited WSI diagnostic caption data in the manner of multi-task joint learning. Extensive experiments with improved classification accuracy and caption generation demonstrate the effectiveness of our method on both WSI classification and captioning task.
Abstract（参考訳）: コンピュータ病理学の分野では、スライド画像全体(WSI)と診断キャプションの両方が診断決定に有用な洞察を与えている。しかし、WSIと診断キャプションを合わせることは重大な課題である。この困難は2つの主な要因から生じる。 1)ギガピクセルWSIは深層学習モデルへの直接入力には不適であり、パッチ間の冗長性と相関性はより注意が必要である。 2) 正確なWSI診断キャプションは極めて限られており, 効果的なモデルの訓練が困難である。これらの障害を克服するために、WSI分類とキャプションのためのマルチモーダル・マルチタスク・マルチインスタンス学習(MIL)フレームワークであるPathM3を提案する。 PathM3はクエリベースのトランスフォーマーを適用して、WSIを診断キャプションと効果的に調整する。病理組織学的視覚パターンがWSI間で冗長に分散されていることを考慮し、各パッチ特徴をインスタンス間の相関を考慮に入れたMILメソッドで集約する。さらに,WSIレベルの字幕におけるデータ不足を克服するために,多タスク共同学習の方法として限定的なWSI診断字幕データを活用する。分類精度とキャプション生成を向上した広範囲な実験により,WSI分類とキャプションタスクにおける本手法の有効性が示された。

関連論文リスト

Efficient Multi-Slide Visual-Language Feature Fusion for Placental Disease Classification [20.137166016134636]
本研究では,EMmPDと命名された患者レベルの胎盤疾患診断のための効率的なマルチモーダルフレームワークを提案する。本稿では,パラメータフリーと学習可能な圧縮戦略を組み合わせた2段階のパッチ選択モジュールを提案する。我々は適応的なグラフ学習を活用して病理的特徴表現を強化するハイブリッドマルチモーダル融合モジュールを開発した。
論文参考訳（メタデータ） (2025-08-05T09:56:12Z)
Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.81603581614496]
病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文参考訳（メタデータ） (2025-03-21T15:40:37Z)
Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning [51.525891360380285]
HDMILは階層的な蒸留マルチインスタンス学習フレームワークであり、無関係なパッチを排除して高速かつ正確な分類を実現する。 HDMILは、動的マルチインスタンスネットワーク(DMIN)と軽量インスタンスプレスクリーンネットワーク(LIPN)の2つの重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (2025-02-28T15:10:07Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文参考訳（メタデータ） (2024-11-19T16:20:27Z)
MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning [11.717352903130411]
多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類のための標準パラダイムとなっている。トレーニングデータの欠如と稀な疾患の存在は,これらの方法に重大な課題をもたらす。本稿では、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:25:51Z)
PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文参考訳（メタデータ） (2024-06-27T23:43:36Z)
MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。私たちは各WSIを非指向グラフとして表現します。マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文参考訳（メタデータ） (2024-03-08T09:02:13Z)
A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文参考訳（メタデータ） (2024-02-09T05:05:28Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
A Dual-branch Self-supervised Representation Learning Framework for Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文参考訳（メタデータ） (2023-03-20T10:57:28Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Hierarchical Transformer for Survival Prediction Using Multimodality Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文参考訳（メタデータ） (2022-11-29T23:47:56Z)
Improving Interpretability for Computer-aided Diagnosis tools on Whole Slide Imaging with Multiple Instance Learning and Gradient-based Explanations [2.5461557112299773]
我々はWSI分類アーキテクチャの設計を形式化し、断片的解釈可能性アプローチを提案する。本研究の目的は,タイルレベルスコアに基づいて決定を下す方法,タイルスコアがどう決定されるか,どの機能を用いてタスクに関連があるかを説明することである。そこで本研究では,AUCにおけるタイルレベルの分類性能を29%以上向上させる,新しい解釈可能性スライドレベルの熱マップを提案する。
論文参考訳（メタデータ） (2020-09-29T13:39:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。