Fugu-MT 論文翻訳(概要): Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

論文の概要: Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

arxiv url: http://arxiv.org/abs/2602.18766v1
Date: Sat, 21 Feb 2026 09:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.302042
Title: Initialization matters in few-shot adaptation of vision-language models for histopathological image classification
Title（参考訳）: 病理画像分類における視覚言語モデルの初期化
Authors: Pablo Meseguer, Rocío del Amor, Valery Naranjo,
Abstract要約: ゼロショットスライドレベル分類問題に対するゼロショット多重インスタンス学習(ZS-MIL)を提案する。 ZS-MILは、VLMテキストエンコーダのクラスレベルの埋め込みを分類層の開始点として使用し、各サンプルのバッグレベルの確率を計算する。
参考スコア（独自算出の注目度）: 1.3642432845689427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision language models (VLM) pre-trained on datasets of histopathological image-caption pairs enabled zero-shot slide-level classification. The ability of VLM image encoders to extract discriminative features also opens the door for supervised fine-tuning for whole-slide image (WSI) classification, ideally using few labeled samples. Slide-level prediction frameworks require the incorporation of multiple instance learning (MIL) due to the gigapixel size of the WSI. Following patch-level feature extraction and aggregation, MIL frameworks rely on linear classifiers trained on top of the slide-level aggregated features. Classifier weight initialization has a large influence on Linear Probing performance in efficient transfer learning (ETL) approaches based on few-shot learning. In this work, we propose Zero-Shot Multiple-Instance Learning (ZS-MIL) to address the limitations of random classifier initialization that underperform zero-shot prediction in MIL problems. ZS-MIL uses the class-level embeddings of the VLM text encoder as the classification layer's starting point to compute each sample's bag-level probabilities. Through multiple experiments, we demonstrate the robustness of ZS-MIL compared to well-known weight initialization techniques both in terms of performance and variability in an ETL few-shot scenario for subtyping prediction.
Abstract（参考訳）: 視覚言語モデル(VLM)は、病理組織学的画像キャプチャーペアのデータセットに基づいて事前訓練されたため、ゼロショットスライドレベルの分類が可能となった。 VLM画像エンコーダが識別的特徴を抽出する能力は、ラベル付きサンプルをほとんど使わずに、全スライディング画像(WSI)分類のための教師付き微調整の扉を開く。スライドレベルの予測フレームワークは、WSIのギガピクセルサイズのため、多重インスタンス学習(MIL)を組み込む必要がある。パッチレベルの機能抽出とアグリゲーションに続いて、MILフレームワークはスライドレベルのアグリゲーション機能の上にトレーニングされた線形分類器に依存している。分類器重み初期化は,少数ショット学習に基づく効率的な伝達学習(ETL)手法における線形探索性能に大きな影響を及ぼす。本研究では,MIL問題におけるゼロショット予測を過小評価するランダム分類器の初期化の限界に対処するため,ゼロショット多重インスタンス学習(ZS-MIL)を提案する。 ZS-MILは、VLMテキストエンコーダのクラスレベルの埋め込みを分類層の開始点として使用し、各サンプルのバッグレベルの確率を計算する。複数の実験を通して、我々はZS-MILのロバスト性について、ETLによるサブタイピング予測における性能と可変性の両方の観点から、よく知られた初期化手法と比較した。

関連論文リスト

Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文参考訳（メタデータ） (2025-10-30T13:09:00Z)
Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation [75.18058114915327]
一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。 FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2025-06-28T18:36:22Z)
Benchmarking histopathology foundation models in a multi-center dataset for skin cancer subtyping [1.927195358774599]
大規模なドメイン内データセットの事前トレーニングは、履歴病理基盤モデル(FM)にタスクに依存しないデータ表現を学習する能力を与える。計算病理学では、スライド全体の自動解析には、スライドのギガピクセルスケールのため、複数のインスタンス学習(MIL)フレームワークが必要である。本研究は,MIL分類フレームワーク内のパッチレベルの特徴抽出器として,病理組織学的FMを評価するための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-06-23T14:12:16Z)
Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文参考訳（メタデータ） (2025-03-28T07:23:07Z)
Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.81603581614496]
病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文参考訳（メタデータ） (2025-03-21T15:40:37Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
MI-VisionShot: Few-shot adaptation of vision-language models for slide-level classification of histopathological images [1.927195358774599]
MI-VisionShot(MI-VisionShot)は、スライドレベルのラベルを予測するための視覚言語モデル上のトレーニングフリー適応手法である。我々のフレームワークは、VLMの優れた表現学習を利用してプロトタイプベースの分類器を作成する。
論文参考訳（メタデータ） (2024-10-21T11:01:20Z)
Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-14T14:49:34Z)
Position: From Correlation to Causation: Max-Pooling-Based Multi-Instance Learning Leads to More Robust Whole Slide Image Classification [51.95824566163554]
我々は、十分に訓練された最大プーリングに基づくMILモデルが因果関係に基づく予測を行い、素早い相関に頼らずにすむことを論じる。提案手法は,2つのデータセットにおいて,既存の注目度に基づく手法よりも優れている。
論文参考訳（メタデータ） (2024-08-18T12:15:22Z)
Rethinking Pre-Trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification [2.375943263571389]
複数インスタンス学習(MIL)は、パッチレベルのアノテーションを必要とせずに、ギガピクセル全体のスライド画像(WSI)分類に好まれる方法となっている。本研究では,3次元のMIL特徴抽出器(事前学習データセット,バックボーンモデル,事前学習手法)を体系的に評価する。
論文参考訳（メタデータ） (2024-08-02T10:34:23Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。