Fugu-MT 論文翻訳(概要): MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning

論文の概要: MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning

arxiv url: http://arxiv.org/abs/2408.11505v2
Date: Mon, 07 Apr 2025 09:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 13:12:58.29182
Title: MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning
Title（参考訳）: MSCPT: マルチスケールおよびコンテキストに着目したプロンプトチューニングによる一眼レフ画像分類
Authors: Minghao Han, Linhao Qu, Dingkang Yang, Xukun Zhang, Xiaoying Wang, Lihua Zhang,
Abstract要約: 複数のインスタンス学習は、スライド画像全体の弱教師付き分類の標準パラダイムとなっている。トレーニングデータの欠如と稀な疾患の存在は、これらの方法に重大な課題をもたらす。本稿では,Few-shot Weakly Supervised WSI 分類タスクのためのマルチスケールおよびコンテキスト中心の Prompt Tuning (MSCPT) 手法を提案する。
参考スコア（独自算出の注目度）: 11.717352903130411
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiple instance learning (MIL) has become a standard paradigm for the weakly supervised classification of whole slide images (WSIs). However, this paradigm relies on using a large number of labeled WSIs for training. The lack of training data and the presence of rare diseases pose significant challenges for these methods. Prompt tuning combined with pre-trained Vision-Language models (VLMs) is an effective solution to the Few-shot Weakly Supervised WSI Classification (FSWC) task. Nevertheless, applying prompt tuning methods designed for natural images to WSIs presents three significant challenges: 1) These methods fail to fully leverage the prior knowledge from the VLM's text modality; 2) They overlook the essential multi-scale and contextual information in WSIs, leading to suboptimal results; and 3) They lack exploration of instance aggregation methods. To address these problems, we propose a Multi-Scale and Context-focused Prompt Tuning (MSCPT) method for FSWC task. Specifically, MSCPT employs the frozen large language model to generate pathological visual language prior knowledge at multiple scales, guiding hierarchical prompt tuning. Additionally, we design a graph prompt tuning module to learn essential contextual information within WSI, and finally, a non-parametric cross-guided instance aggregation module has been introduced to derive the WSI-level features. Extensive experiments, visualizations, and interpretability analyses were conducted on five datasets and three downstream tasks using three VLMs, demonstrating the strong performance of our MSCPT. All codes have been made publicly accessible at https://github.com/Hanminghao/MSCPT.
Abstract（参考訳）: 多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類の標準パラダイムとなっている。しかし、このパラダイムはトレーニングに多数のラベル付きWSIを使うことに依存しています。トレーニングデータの欠如と稀な疾患の存在は、これらの方法に重大な課題をもたらす。 Few-shot Weakly Supervised WSI Classification (FSWC) タスクの効果的な解法は、事前訓練されたビジョンランゲージモデル(VLM)と組み合わせたプロンプトチューニングである。それにもかかわらず、WSIsに自然画像用に設計されたプロンプトチューニング手法を適用することは、以下の3つの重要な課題を提示している。 1) これらの方法は,VLMのテキストモダリティからの事前知識を十分に活用することができない。 2)WSIにおける重要なマルチスケール・コンテキスト情報を見落とし、最適以下の結果をもたらす。 3) インスタンス集約手法の探索は欠如している。これらの問題に対処するために、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。特に、MSCPTは、凍結した大きな言語モデルを用いて、複数のスケールで病理的な視覚言語事前の知識を生成し、階層的なプロンプトチューニングを導く。さらに、WSI内で重要なコンテキスト情報を学習するためのグラフプロンプトチューニングモジュールを設計し、最後にWSIレベルの特徴を引き出すために、非パラメトリックなクロスガイドインスタンスアグリゲーションモジュールを導入しました。 5つのデータセットと3つの下流タスクに対して3つのVLMを用いて大規模な実験,可視化,解釈可能性分析を行い,MSCPTの強い性能を実証した。すべてのコードはhttps://github.com/Hanminghao/MSCPTで公開されている。

関連論文リスト

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
PTCMIL: Multiple Instance Learning via Prompt Token Clustering for Whole Slide Image Analysis [22.06174028063076]
MIL(Multiple Instance Learning)は、WSI分析の進歩であるが、WSIの複雑さと不均一性に苦慮している。 MILアグリゲーションのための新しいPmpt Token ClusteringベースのViTであるPTCMILを提案する。 PTCMILはクラスタリングと予測タスクをエンドツーエンドで統合する。
論文参考訳（メタデータ） (2025-07-24T23:33:59Z)
Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.81603581614496]
病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文参考訳（メタデータ） (2025-03-21T15:40:37Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。 In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文参考訳（メタデータ） (2024-04-18T17:32:32Z)
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文参考訳（メタデータ） (2024-03-21T11:58:50Z)
PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning [35.24716774767677]
本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
論文参考訳（メタデータ） (2024-03-13T21:19:12Z)
Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文参考訳（メタデータ） (2024-02-29T16:29:53Z)
A Dual-branch Self-supervised Representation Learning Framework for Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文参考訳（メタデータ） (2023-03-20T10:57:28Z)
Task-specific Fine-tuning via Variational Information Bottleneck for Weakly-supervised Pathology Whole Slide Image Classification [10.243293283318415]
MIL(Multiple Instance Learning)は、デジタル・パスロジー・ホール・スライド・イメージ(WSI)分類において有望な結果を示している。本稿では,Information Bottleneck 理論を動機とした効率的な WSI 微調整フレームワークを提案する。我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。
論文参考訳（メタデータ） (2023-03-15T08:41:57Z)
Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文参考訳（メタデータ） (2022-10-13T17:50:24Z)
Support-set based Multi-modal Representation Enhancement for Video Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文参考訳（メタデータ） (2022-05-19T03:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。