論文の概要: PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models
- arxiv url: http://arxiv.org/abs/2407.09979v1
- Date: Sat, 13 Jul 2024 18:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:58:18.394409
- Title: PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models
- Title(参考訳): PFPs:大規模視覚モデルと言語モデルを用いた様々な電位出力に対するプロンプト誘導型フレキシブルな病理分類
- Authors: Can Cui, Ruining Deng, Junlin Guo, Quan Liu, Tianyuan Yao, Haichun Yang, Yuankai Huo,
- Abstract要約: セグメンテーションの柔軟性を高めるために,従来のタスクトークンと並行して,LLM(Large Language Model)を通じて様々なタスクプロンプトを導入する。
コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために微調整言語プロンプトを用いた計算効率の高いパイプラインを構築し,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較し,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計する。
- 参考スコア(独自算出の注目度): 12.895542069443438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Foundation Model has recently gained attention in medical image analysis. Its zero-shot learning capabilities accelerate AI deployment and enhance the generalizability of clinical applications. However, segmenting pathological images presents a special focus on the flexibility of segmentation targets. For instance, a single click on a Whole Slide Image (WSI) could signify a cell, a functional unit, or layers, adding layers of complexity to the segmentation tasks. Current models primarily predict potential outcomes but lack the flexibility needed for physician input. In this paper, we explore the potential of enhancing segmentation model flexibility by introducing various task prompts through a Large Language Model (LLM) alongside traditional task tokens. Our contribution is in four-fold: (1) we construct a computational-efficient pipeline that uses finetuned language prompts to guide flexible multi-class segmentation; (2) We compare segmentation performance with fixed prompts against free-text; (3) We design a multi-task kidney pathology segmentation dataset and the corresponding various free-text prompts; and (4) We evaluate our approach on the kidney pathology dataset, assessing its capacity to new cases during inference.
- Abstract(参考訳): Vision Foundation Modelは、最近、医療画像分析に注目を集めている。
そのゼロショット学習能力は、AIの展開を加速し、臨床応用の一般化性を高める。
しかし, セグメンテーション画像は, セグメンテーション対象の柔軟性に特に焦点が当てられている。
例えば、WSI(Whole Slide Image)のワンクリックは、セル、機能ユニット、レイヤを意味し、セグメンテーションタスクに複雑なレイヤを追加する。
現在のモデルは、主に潜在的な結果を予測するが、医師の入力に必要な柔軟性は欠如している。
本稿では,従来のタスクトークンと並行して,Large Language Model (LLM) を通じて様々なタスクプロンプトを導入することにより,セグメンテーションモデルの柔軟性を高める可能性を検討する。
コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために,微調整言語プロンプトを用いた計算効率の高いパイプラインを構築すること,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較すること,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計すること,(4)腎臓病理データセットに対するアプローチを評価し,推論中の新しいケースにその能力を評価すること,である。
関連論文リスト
- ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - HATs: Hierarchical Adaptive Taxonomy Segmentation for Panoramic Pathology Image Analysis [19.04633470168871]
パノラマ画像分割は、形態学的に複雑で可変スケールの解剖学のため、顕著な課題である。
本稿では, 腎臓構造のパノラマ像を, 詳細な解剖学的知見を生かして網羅的に把握することを目的とした, 階層型適応分類法を提案する。
提案手法では,各領域,機能単位,細胞にまたがる空間的関係を多機能な「プラグ・アンド・プレイ」損失関数に変換する革新的HATs手法と,解剖学的階層化と大規模考察を,全パノラマ要素に統一された単純な行列表現に変換すること,そして,(3)。
論文 参考訳(メタデータ) (2024-06-30T05:35:26Z) - A Classifier-Free Incremental Learning Framework for Scalable Medical Image Segmentation [6.591403935303867]
本稿では,単一分類器のないネットワークにおいて,可変数のクラスをセグメント化できる新しいセグメンテーションパラダイムを提案する。
このネットワークは、コントラスト学習を用いて訓練され、簡単な解釈を容易にする識別的特徴表現を生成する。
統合ネットワーク内での様々なクラス数処理における本手法の柔軟性とその漸進学習能力について述べる。
論文 参考訳(メタデータ) (2024-05-25T19:05:07Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - VISION-MAE: A Foundation Model for Medical Image Segmentation and
Classification [36.8105960525233]
医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。
VISION-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットでトレーニングされている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Generalized Organ Segmentation by Imitating One-shot Reasoning using
Anatomical Correlation [55.1248480381153]
そこで我々は,アノテーション付きオルガンクラスから一般化されたオルガン概念を学習し,その概念を未知のクラスに転送するOrganNetを提案する。
そこで,OrganNetは臓器形態の幅広い変化に効果的に抵抗でき,一発分節タスクで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T13:41:12Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。