論文の概要: Zero-shot Nuclei Detection via Visual-Language Pre-trained Models
- arxiv url: http://arxiv.org/abs/2306.17659v1
- Date: Fri, 30 Jun 2023 13:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:16:17.368666
- Title: Zero-shot Nuclei Detection via Visual-Language Pre-trained Models
- Title(参考訳): 視覚言語事前学習モデルによるゼロショット核検出
- Authors: Yongjian Wu, Yang Zhou, Jiya Saiyin, Bingzheng Wei, Maode Lai,
Jianzhong Shou, Yubo Fan, Yan Xu
- Abstract要約: 大規模視覚言語事前学習モデルは、自然シーンの下流物体検出において優れた性能を証明している。
しかし、VLPMsによるH&E画像のゼロショット核検出は未発見のままである。
本稿では,ゼロショット核検出のためのオブジェクトレベルVLPM,グラウンドド言語-画像事前学習モデルの可能性を探究する。
- 参考スコア(独自算出の注目度): 19.526504045149895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale visual-language pre-trained models (VLPM) have proven their
excellent performance in downstream object detection for natural scenes.
However, zero-shot nuclei detection on H\&E images via VLPMs remains
underexplored. The large gap between medical images and the web-originated
text-image pairs used for pre-training makes it a challenging task. In this
paper, we attempt to explore the potential of the object-level VLPM, Grounded
Language-Image Pre-training (GLIP) model, for zero-shot nuclei detection.
Concretely, an automatic prompts design pipeline is devised based on the
association binding trait of VLPM and the image-to-text VLPM BLIP, avoiding
empirical manual prompts engineering. We further establish a self-training
framework, using the automatically designed prompts to generate the preliminary
results as pseudo labels from GLIP and refine the predicted boxes in an
iterative manner. Our method achieves a remarkable performance for label-free
nuclei detection, surpassing other comparison methods. Foremost, our work
demonstrates that the VLPM pre-trained on natural image-text pairs exhibits
astonishing potential for downstream tasks in the medical field as well. Code
will be released at https://github.com/wuyongjianCODE/VLPMNuD.
- Abstract(参考訳): 大規模視覚言語事前訓練モデル(VLPM)は、自然シーンの下流オブジェクト検出において優れた性能を示した。
しかし、VLPMsによるH\&E画像のゼロショット核検出は未発見のままである。
医用画像とWebで編集されたテキストイメージのペアの間には、事前学習のための大きなギャップがある。
本稿では,ゼロショット核検出のためのglip(grounded language-image pre-training)モデルであるオブジェクトレベルvlpmの可能性について検討する。
具体的には、VLPMと画像間VLPMBLIPの結合特性に基づいて自動プロンプト設計パイプラインを考案し、経験的手動プロンプトエンジニアリングを避ける。
さらに,自動設計プロンプトを用いた自己学習フレームワークを構築し,glipから擬似ラベルとして予備結果を生成し,予測ボックスを反復的に洗練する。
本手法はラベルフリー核検出において,他の比較法よりも優れた性能を発揮する。
我々の研究は、自然画像とテキストのペアで事前訓練されたVLPMが、医療分野の下流タスクにも驚くべき可能性を示すことを示した。
コードはhttps://github.com/wuyongjianCODE/VLPMNuDでリリースされる。
関連論文リスト
- AttriPrompter: Auto-Prompting with Attribute Semantics for Zero-shot Nuclei Detection via Visual-Language Pre-trained Models [20.071868757497278]
本稿では,ゼロショット核検出のためのオブジェクトレベル視覚言語事前学習の可能性について検討する。
本稿では,手動プロンプト設計を避けるために,AttriPrompterという革新的な自動プロンプトパイプラインを提案する。
本手法はラベルのない核検出において顕著な性能を示し,既存の教師なし手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T08:48:41Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。