論文の概要: Boosting Vision-Language Models for Histopathology Classification: Predict all at once
- arxiv url: http://arxiv.org/abs/2409.01883v1
- Date: Tue, 3 Sep 2024 13:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:23:22.096637
- Title: Boosting Vision-Language Models for Histopathology Classification: Predict all at once
- Title(参考訳): 病理組織分類のための視覚・言語モデルの構築:全てを同時に予測する
- Authors: Maxime Zanella, Fereshteh Shakeri, Yunshi Huang, Houda Bahig, Ismail Ben Ayed,
- Abstract要約: 病理組織学における視覚言語モデルへのトランスダクティブアプローチを提案する。
私たちのアプローチは非常に効率的で、ほんの数秒で105ドルのパッチを処理します。
- 参考スコア(独自算出の注目度): 11.644118356081531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of vision-language models (VLMs) for histo-pathology has shown promising new usages and zero-shot performances. However, current approaches, which decompose large slides into smaller patches, focus solely on inductive classification, i.e., prediction for each patch is made independently of the other patches in the target test data. We extend the capability of these large models by introducing a transductive approach. By using text-based predictions and affinity relationships among patches, our approach leverages the strong zero-shot capabilities of these new VLMs without any additional labels. Our experiments cover four histopathology datasets and five different VLMs. Operating solely in the embedding space (i.e., in a black-box setting), our approach is highly efficient, processing $10^5$ patches in just a few seconds, and shows significant accuracy improvements over inductive zero-shot classification. Code available at https://github.com/FereshteShakeri/Histo-TransCLIP.
- Abstract(参考訳): 病理組織学のための視覚言語モデル(VLM)の開発は、将来有望な新しい使用法とゼロショット性能を示している。
しかし、現在のアプローチでは、大きなスライドを小さなパッチに分解し、帰納的分類のみに焦点を当てている。
トランスダクティブアプローチを導入することで、これらの大きなモデルの能力を拡張します。
パッチ間のテキストベースの予測と親和性関係を用いることで,新たなVLMのゼロショット能力を付加ラベルなしで活用する。
われわれは4つの病理組織学的データセットと5つの異なるVLMについて検討した。
埋め込み空間でのみ動作する(ブラックボックスの設定)ため、我々のアプローチは非常に効率的で、わずか数秒で10^5$のパッチを処理し、帰納的ゼロショット分類よりも大幅に精度が向上した。
コードはhttps://github.com/FereshteShakeri/Histo-TransCLIPで公開されている。
関連論文リスト
- Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification [19.850063789903846]
リモートセンシングのためのビジョンランゲージモデルは、広範囲の事前トレーニングのおかげで有望な用途を示している。
提案手法は,テキストのプロンプトと親和関係のパッチによる初期予測を利用してこの問題に対処する。
最先端のVision-Language Modelを用いた10のリモートセンシングデータセットの実験では、大幅な精度向上が示されている。
論文 参考訳(メタデータ) (2024-09-01T11:39:13Z) - An efficient framework based on large foundation model for cervical cytopathology whole slide image screening [13.744580492120749]
本稿では,教師なし・弱教師付き学習によるWSIレベルラベルのみを用いた頚部細胞病理学WSI分類のための効率的なフレームワークを提案する。
CSDおよびFNAC 2019データセットで実施された実験は、提案手法が様々なMIL手法の性能を高め、最先端(SOTA)性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T08:21:54Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - NearbyPatchCL: Leveraging Nearby Patches for Self-Supervised Patch-Level
Multi-Class Classification in Whole-Slide Images [10.8479107614771]
全スライディング画像(WSI)解析は、がんの診断と治療において重要な役割を担っている。
本稿では,新しい自己教師型学習手法であるNearby Patch Contrastive Learning(NearbyPatchCL)を紹介する。
本手法は,トップ1分類精度87.56%で,教師付きベースラインと最先端SSL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-12T18:24:44Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。