論文の概要: AttriPrompter: Auto-Prompting with Attribute Semantics for Zero-shot Nuclei Detection via Visual-Language Pre-trained Models
- arxiv url: http://arxiv.org/abs/2410.16820v1
- Date: Tue, 22 Oct 2024 08:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:50.349058
- Title: AttriPrompter: Auto-Prompting with Attribute Semantics for Zero-shot Nuclei Detection via Visual-Language Pre-trained Models
- Title(参考訳): AttriPrompter:Visual-Language Pre-trained Modelによるゼロショット核検出のための属性セマンティクスによる自動プロンプト
- Authors: Yongjian Wu, Yang Zhou, Jiya Saiyin, Bingzheng Wei, Maode Lai, Jianzhong Shou, Yan Xu,
- Abstract要約: 本稿では,ゼロショット核検出のためのオブジェクトレベル視覚言語事前学習の可能性について検討する。
本稿では,手動プロンプト設計を避けるために,AttriPrompterという革新的な自動プロンプトパイプラインを提案する。
本手法はラベルのない核検出において顕著な性能を示し,既存の教師なし手法よりも優れていた。
- 参考スコア(独自算出の注目度): 20.071868757497278
- License:
- Abstract: Large-scale visual-language pre-trained models (VLPMs) have demonstrated exceptional performance in downstream object detection through text prompts for natural scenes. However, their application to zero-shot nuclei detection on histopathology images remains relatively unexplored, mainly due to the significant gap between the characteristics of medical images and the web-originated text-image pairs used for pre-training. This paper aims to investigate the potential of the object-level VLPM, Grounded Language-Image Pre-training (GLIP), for zero-shot nuclei detection. Specifically, we propose an innovative auto-prompting pipeline, named AttriPrompter, comprising attribute generation, attribute augmentation, and relevance sorting, to avoid subjective manual prompt design. AttriPrompter utilizes VLPMs' text-to-image alignment to create semantically rich text prompts, which are then fed into GLIP for initial zero-shot nuclei detection. Additionally, we propose a self-trained knowledge distillation framework, where GLIP serves as the teacher with its initial predictions used as pseudo labels, to address the challenges posed by high nuclei density, including missed detections, false positives, and overlapping instances. Our method exhibits remarkable performance in label-free nuclei detection, outperforming all existing unsupervised methods and demonstrating excellent generality. Notably, this work highlights the astonishing potential of VLPMs pre-trained on natural image-text pairs for downstream tasks in the medical field as well. Code will be released at https://github.com/wuyongjianCODE/AttriPrompter.
- Abstract(参考訳): 大規模視覚言語事前学習モデル (VLPM) は、自然シーンのテキストプロンプトによる下流オブジェクトの検出において、例外的な性能を示した。
しかし, 医用画像の特徴と, 事前訓練に用いるウェブ編集用テキストイメージペアとの間に有意差があることから, 病理像に対するゼロショット核検出への応用は, いまだに未発見のままである。
本稿では,ゼロショット核検出のためのオブジェクトレベルのVLPMであるGLIP(Gunded Language- Image Pre-Training)の可能性を検討することを目的とする。
具体的には,属性生成,属性拡張,関連性ソートを主観的な手動プロンプト設計を避けるために,AttriPrompterという革新的な自動プロンプトパイプラインを提案する。
AttriPrompterはVLPMのテキストと画像のアライメントを利用して意味的にリッチなテキストプロンプトを生成し、その後GLIPに入力してゼロショット核検出を行う。
さらに, 自己学習型知識蒸留フレームワークを提案し, GLIPは疑似ラベルとしての初期予測を行うとともに, 誤り検出, 偽陽性, 重複インスタンスなどの高核密度による課題に対処する。
本手法は, ラベルフリー核検出において顕著な性能を示し, 既存の教師なし手法よりも優れ, 優れた汎用性を示す。
この研究は、医療分野における下流タスクのための自然な画像テキストペアで事前訓練されたVLPMの驚くべき可能性を強調している。
コードはhttps://github.com/wuyongjianCODE/AttriPrompter.comでリリースされる。
関連論文リスト
- Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification [3.1029532920699934]
自然言語処理(NLP)におけるテキスト生成による新しいプロンプト生成手法を提案する。
提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。
RNNベースのデコーダを特徴とするPSPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。
論文 参考訳(メタデータ) (2024-05-10T13:27:32Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Zero-shot Nuclei Detection via Visual-Language Pre-trained Models [19.526504045149895]
大規模視覚言語事前学習モデルは、自然シーンの下流物体検出において優れた性能を証明している。
しかし、VLPMsによるH&E画像のゼロショット核検出は未発見のままである。
本稿では,ゼロショット核検出のためのオブジェクトレベルVLPM,グラウンドド言語-画像事前学習モデルの可能性を探究する。
論文 参考訳(メタデータ) (2023-06-30T13:44:13Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model [34.85604521903056]
オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
論文 参考訳(メタデータ) (2022-03-28T17:50:26Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。