論文の概要: CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment
- arxiv url: http://arxiv.org/abs/2406.05205v1
- Date: Fri, 7 Jun 2024 18:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:45:56.362407
- Title: CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment
- Title(参考訳): CPLIP:包括的視覚言語アライメントによる病理学のゼロショット学習
- Authors: Sajid Javed, Arif Mahmood, Iyyakutti Iyappan Ganapathi, Fayaz Ali Dharejo, Naoufel Werghi, Mohammed Bennamoun,
- Abstract要約: CPLIPは、病理組織学における画像とテキストのアライメントを強化する新しい教師なし技術である。
複数の病理組織学的タスクで評価され、CPLIPはゼロショット学習シナリオにおいて顕著な改善を示した。
さらなる研究とレプリケーションを促進するため、CPLIPのコードはGitHubで入手できる。
- 参考スコア(独自算出の注目度): 40.811510317145675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes Comprehensive Pathology Language Image Pre-training (CPLIP), a new unsupervised technique designed to enhance the alignment of images and text in histopathology for tasks such as classification and segmentation. This methodology enriches vision-language models by leveraging extensive data without needing ground truth annotations. CPLIP involves constructing a pathology-specific dictionary, generating textual descriptions for images using language models, and retrieving relevant images for each text snippet via a pre-trained model. The model is then fine-tuned using a many-to-many contrastive learning method to align complex interrelated concepts across both modalities. Evaluated across multiple histopathology tasks, CPLIP shows notable improvements in zero-shot learning scenarios, outperforming existing methods in both interpretability and robustness and setting a higher benchmark for the application of vision-language models in the field. To encourage further research and replication, the code for CPLIP is available on GitHub at https://cplip.github.io/
- Abstract(参考訳): 本稿では,分類やセグメンテーションなどの課題に対する病理組織における画像とテキストのアライメントを強化するために,新しい教師なし手法である包括的病理言語画像事前訓練(CPLIP)を提案する。
この方法論は、基礎となる真理のアノテーションを必要とせず、広範なデータを活用することで、視覚言語モデルを強化する。
CPLIPは、病理学固有の辞書の構築、言語モデルを用いた画像のテキスト記述の作成、事前訓練されたモデルによる各テキストスニペットの関連画像の検索を含む。
このモデルは、多対多のコントラスト学習法を用いて微調整され、複雑な相互関係の概念を両モードで整列させる。
複数の病理組織学タスクで評価され、CPLIPはゼロショット学習シナリオの顕著な改善、解釈可能性とロバスト性の両方において既存の手法よりも優れた性能を示し、現場でのビジョン言語モデルの適用のためのより高いベンチマークを設定した。
さらなる研究とレプリケーションを促進するため、CPLIPのコードはGitHubでhttps://cplip.github.io/で公開されている。
関連論文リスト
- Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。