論文の概要: PathFLIP: Fine-grained Language-Image Pretraining for Versatile Computational Pathology
- arxiv url: http://arxiv.org/abs/2512.17621v1
- Date: Fri, 19 Dec 2025 14:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.430105
- Title: PathFLIP: Fine-grained Language-Image Pretraining for Versatile Computational Pathology
- Title(参考訳): PathFLIP:Versatile Computational Pathologyのための細粒度言語画像前処理
- Authors: Fengchun Liu, Songhan Jiang, Linghan Cai, Ziyue Wang, Yongbing Zhang,
- Abstract要約: PathFLIP(Pathology Fine-fine Language-Image Pretraining)は,WSI(全体的全スライド画像)解釈のための新しいフレームワークである。
PathFLIPは、スライドレベルのキャプションを領域レベルのサブキャプションに分解し、テキスト条件付き領域埋め込みを生成して、正確な視覚的な接地を容易にする。
- 参考スコア(独自算出の注目度): 6.821738567680833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) have achieved notable progress in computational pathology (CPath), the gigapixel scale and spatial heterogeneity of Whole Slide Images (WSIs) continue to pose challenges for multimodal understanding. Existing alignment methods struggle to capture fine-grained correspondences between textual descriptions and visual cues across thousands of patches from a slide, compromising their performance on downstream tasks. In this paper, we propose PathFLIP (Pathology Fine-grained Language-Image Pretraining), a novel framework for holistic WSI interpretation. PathFLIP decomposes slide-level captions into region-level subcaptions and generates text-conditioned region embeddings to facilitate precise visual-language grounding. By harnessing Large Language Models (LLMs), PathFLIP can seamlessly follow diverse clinical instructions and adapt to varied diagnostic contexts. Furthermore, it exhibits versatile capabilities across multiple paradigms, efficiently handling slide-level classification and retrieval, fine-grained lesion localization, and instruction following. Extensive experiments demonstrate that PathFLIP outperforms existing large-scale pathological VLMs on four representative benchmarks while requiring significantly less training data, paving the way for fine-grained, instruction-aware WSI interpretation in clinical practice.
- Abstract(参考訳): VLM(Vision-Language Models)は計算病理学(CPath)において顕著な進歩を遂げてきたが、WSI(Whole Slide Images)のギガピクセルスケールと空間的不均一性はマルチモーダル理解の課題を呈し続けている。
既存のアライメント手法は、スライドから数千のパッチにまたがるテキスト記述と視覚的手がかりの微妙な対応を捉えるのに苦労し、下流タスクのパフォーマンスを損なう。
本稿では,総合的なWSI解釈のための新しいフレームワークであるPathFLIP(Pathology Fine-fine Language-Image Pretraining)を提案する。
PathFLIPは、スライドレベルのキャプションを領域レベルのサブキャプションに分解し、テキスト条件付き領域埋め込みを生成して、正確な視覚的な接地を容易にする。
LLM(Large Language Models)を利用することで、PathFLIPはシームレスに多様な臨床指示に従い、さまざまな診断コンテキストに適応することができる。
さらに、スライドレベルの分類と検索、きめ細かい病変の局所化、指示の追従を効率的に処理し、複数のパラダイムにまたがる多彩な機能を示す。
広範にわたる実験により,PathFLIPは4つの代表的なベンチマークにおいて,既存の大規模病的 VLM よりも優れる一方で,トレーニングデータも大幅に少なくなり,臨床実践における細粒度で命令対応の WSI 解釈への道が開かれた。
関連論文リスト
- GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification [4.922864692096282]
多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。
最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。
本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T09:59:39Z) - Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.81603581614496]
病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。
本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。
本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文 参考訳(メタデータ) (2025-03-21T15:40:37Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment [40.811510317145675]
CPLIPは、病理組織学における画像とテキストのアライメントを強化する新しい教師なし技術である。
複数の病理組織学的タスクで評価され、CPLIPはゼロショット学習シナリオにおいて顕著な改善を示した。
さらなる研究とレプリケーションを促進するため、CPLIPのコードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-06-07T18:39:58Z) - PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning [35.24716774767677]
本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
論文 参考訳(メタデータ) (2024-03-13T21:19:12Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。