論文の概要: Generalizable Whole Slide Image Classification with Fine-Grained
Visual-Semantic Interaction
- arxiv url: http://arxiv.org/abs/2402.19326v1
- Date: Thu, 29 Feb 2024 16:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:55:01.651895
- Title: Generalizable Whole Slide Image Classification with Fine-Grained
Visual-Semantic Interaction
- Title(参考訳): 細粒度視聴覚相互作用によるスライド画像分類の一般化
- Authors: Hao Li, Ying Chen, Yifei Chen, Wenxian Yang, Bowen Ding, Yuchen Han,
Liansheng Wang, Rongshan Yu
- Abstract要約: 本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
- 参考スコア(独自算出の注目度): 18.76437380950314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole Slide Image (WSI) classification is often formulated as a Multiple
Instance Learning (MIL) problem. Recently, Vision-Language Models (VLMs) have
demonstrated remarkable performance in WSI classification. However, existing
methods leverage coarse-grained pathogenetic descriptions for visual
representation supervision, which are insufficient to capture the complex
visual appearance of pathogenetic images, hindering the generalizability of
models on diverse downstream tasks. Additionally, processing high-resolution
WSIs can be computationally expensive. In this paper, we propose a novel
"Fine-grained Visual-Semantic Interaction" (FiVE) framework for WSI
classification. It is designed to enhance the model's generalizability by
leveraging the interplay between localized visual patterns and fine-grained
pathological semantics. Specifically, with meticulously designed queries, we
start by utilizing a large language model to extract fine-grained pathological
descriptions from various non-standardized raw reports. The output descriptions
are then reconstructed into fine-grained labels used for training. By
introducing a Task-specific Fine-grained Semantics (TFS) module, we enable
prompts to capture crucial visual information in WSIs, which enhances
representation learning and augments generalization capabilities significantly.
Furthermore, given that pathological visual patterns are redundantly
distributed across tissue slices, we sample a subset of visual instances during
training. Our method demonstrates robust generalizability and strong
transferability, dominantly outperforming the counterparts on the TCGA Lung
Cancer dataset with at least 9.19% higher accuracy in few-shot experiments.
- Abstract(参考訳): 全体スライド画像(WSI)分類は、しばしば多重インスタンス学習(MIL)問題として定式化される。
近年,視覚言語モデル (VLM) はWSI分類において顕著な性能を示した。
しかし,既存の手法では,病原体画像の複雑な視覚的外観を捉えるには不十分であり,様々な下流タスクにおけるモデルの一般化を阻害する粗粒状病原体記述を利用する。
加えて、高解像度WSIの処理は計算コストがかかる。
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction" (FiVE) フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
特に,厳密に設計されたクエリでは,まず大きな言語モデルを用いて,さまざまな非標準化された生レポートから詳細な病的記述を抽出する。
出力記述は、訓練に使用されるきめ細かいラベルに再構成される。
タスク固有きめ細かなセマンティックス(TFS)モジュールを導入することで、WSIにおいて重要な視覚情報をキャプチャし、表現学習を強化し、一般化能力を著しく強化する。
さらに,組織スライスに病理視覚パターンが冗長に分散していることを考えると,トレーニング中の視覚のサブセットをサンプリングする。
本手法は,tga肺がんデータセットにおいて,少なくとも9.19%の精度で比較し,ロバストな汎化性と強い転移性を示す。
関連論文リスト
- Tumor segmentation on whole slide images: training or prompting? [0.0]
3つの異なる臓器に対する腫瘍分節の文脈における視覚的プロンプトの有効性を示す。
この結果から,視覚的プロンプトは,適切なプロンプト例を用いて,広範囲な微調整を行なわずに,同等あるいは優れた性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-02-21T16:59:53Z) - Dual-View Data Hallucination with Semantic Relation Guidance for
Few-Shot Image Recognition [52.19737194653999]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - Learned representation-guided diffusion models for large-image
generation [60.698616089211505]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Task-specific Fine-tuning via Variational Information Bottleneck for
Weakly-supervised Pathology Whole Slide Image Classification [10.243293283318415]
MIL(Multiple Instance Learning)は、デジタル・パスロジー・ホール・スライド・イメージ(WSI)分類において有望な結果を示している。
本稿では,Information Bottleneck 理論を動機とした効率的な WSI 微調整フレームワークを提案する。
我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-15T08:41:57Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Lesion-Aware Contrastive Representation Learning for Histopathology
Whole Slide Images Analysis [16.264758789726223]
本稿では,スライド画像解析の病理組織学的手法として,Lesion-Aware Contrastive Learning (LACL) という新しいコントラスト表現学習フレームワークを提案する。
実験の結果,LACLは異なるデータセット上での組織像表現学習において,最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-06-27T08:39:51Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。