論文の概要: Initialization matters in few-shot adaptation of vision-language models for histopathological image classification
- arxiv url: http://arxiv.org/abs/2602.18766v1
- Date: Sat, 21 Feb 2026 09:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.302042
- Title: Initialization matters in few-shot adaptation of vision-language models for histopathological image classification
- Title(参考訳): 病理画像分類における視覚言語モデルの初期化
- Authors: Pablo Meseguer, Rocío del Amor, Valery Naranjo,
- Abstract要約: ゼロショットスライドレベル分類問題に対するゼロショット多重インスタンス学習(ZS-MIL)を提案する。
ZS-MILは、VLMテキストエンコーダのクラスレベルの埋め込みを分類層の開始点として使用し、各サンプルのバッグレベルの確率を計算する。
- 参考スコア(独自算出の注目度): 1.3642432845689427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLM) pre-trained on datasets of histopathological image-caption pairs enabled zero-shot slide-level classification. The ability of VLM image encoders to extract discriminative features also opens the door for supervised fine-tuning for whole-slide image (WSI) classification, ideally using few labeled samples. Slide-level prediction frameworks require the incorporation of multiple instance learning (MIL) due to the gigapixel size of the WSI. Following patch-level feature extraction and aggregation, MIL frameworks rely on linear classifiers trained on top of the slide-level aggregated features. Classifier weight initialization has a large influence on Linear Probing performance in efficient transfer learning (ETL) approaches based on few-shot learning. In this work, we propose Zero-Shot Multiple-Instance Learning (ZS-MIL) to address the limitations of random classifier initialization that underperform zero-shot prediction in MIL problems. ZS-MIL uses the class-level embeddings of the VLM text encoder as the classification layer's starting point to compute each sample's bag-level probabilities. Through multiple experiments, we demonstrate the robustness of ZS-MIL compared to well-known weight initialization techniques both in terms of performance and variability in an ETL few-shot scenario for subtyping prediction.
- Abstract(参考訳): 視覚言語モデル(VLM)は、病理組織学的画像キャプチャーペアのデータセットに基づいて事前訓練されたため、ゼロショットスライドレベルの分類が可能となった。
VLM画像エンコーダが識別的特徴を抽出する能力は、ラベル付きサンプルをほとんど使わずに、全スライディング画像(WSI)分類のための教師付き微調整の扉を開く。
スライドレベルの予測フレームワークは、WSIのギガピクセルサイズのため、多重インスタンス学習(MIL)を組み込む必要がある。
パッチレベルの機能抽出とアグリゲーションに続いて、MILフレームワークはスライドレベルのアグリゲーション機能の上にトレーニングされた線形分類器に依存している。
分類器重み初期化は,少数ショット学習に基づく効率的な伝達学習(ETL)手法における線形探索性能に大きな影響を及ぼす。
本研究では,MIL問題におけるゼロショット予測を過小評価するランダム分類器の初期化の限界に対処するため,ゼロショット多重インスタンス学習(ZS-MIL)を提案する。
ZS-MILは、VLMテキストエンコーダのクラスレベルの埋め込みを分類層の開始点として使用し、各サンプルのバッグレベルの確率を計算する。
複数の実験を通して、我々はZS-MILのロバスト性について、ETLによるサブタイピング予測における性能と可変性の両方の観点から、よく知られた初期化手法と比較した。
関連論文リスト
- Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。
本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。
本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文 参考訳(メタデータ) (2025-03-28T07:23:07Z) - Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.81603581614496]
病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。
本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。
本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文 参考訳(メタデータ) (2025-03-21T15:40:37Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Position: From Correlation to Causation: Max-Pooling-Based Multi-Instance Learning Leads to More Robust Whole Slide Image Classification [51.95824566163554]
我々は、十分に訓練された最大プーリングに基づくMILモデルが因果関係に基づく予測を行い、素早い相関に頼らずにすむことを論じる。
提案手法は,2つのデータセットにおいて,既存の注目度に基づく手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-18T12:15:22Z) - Rethinking Pre-Trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification [2.375943263571389]
複数インスタンス学習(MIL)は、パッチレベルのアノテーションを必要とせずに、ギガピクセル全体のスライド画像(WSI)分類に好まれる方法となっている。
本研究では,3次元のMIL特徴抽出器(事前学習データセット,バックボーンモデル,事前学習手法)を体系的に評価する。
論文 参考訳(メタデータ) (2024-08-02T10:34:23Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。