論文の概要: CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology
- arxiv url: http://arxiv.org/abs/2412.12077v1
- Date: Mon, 16 Dec 2024 18:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:33.576921
- Title: CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology
- Title(参考訳): CPath-Omni:計算病理におけるパッチと全スライド画像解析のための統一型マルチモーダル基礎モデル
- Authors: Yuxuan Sun, Yixuan Si, Chenglu Zhu, Xuan Gong, Kai Zhang, Pingyi Chen, Ye Zhang, Zhongyi Shui, Tao Lin, Lin Yang,
- Abstract要約: CPath-OmniはパッチとWSIレベルの画像解析を統合するために設計された最初のLMMである。
CPath-Omniは、42データセット中39のタスクに対して、最新技術(SOTA)のパフォーマンスを達成する。
CPath-CLIPは、初めて異なるビジョンモデルを統合し、大きな言語モデルをテキストエンコーダとして組み込んで、より強力なCLIPモデルを構築する。
- 参考スコア(独自算出の注目度): 17.781388341968967
- License:
- Abstract: The emergence of large multimodal models (LMMs) has brought significant advancements to pathology. Previous research has primarily focused on separately training patch-level and whole-slide image (WSI)-level models, limiting the integration of learned knowledge across patches and WSIs, and resulting in redundant models. In this work, we introduce CPath-Omni, the first 15-billion-parameter LMM designed to unify both patch and WSI level image analysis, consolidating a variety of tasks at both levels, including classification, visual question answering, captioning, and visual referring prompting. Extensive experiments demonstrate that CPath-Omni achieves state-of-the-art (SOTA) performance across seven diverse tasks on 39 out of 42 datasets, outperforming or matching task-specific models trained for individual tasks. Additionally, we develop a specialized pathology CLIP-based visual processor for CPath-Omni, CPath-CLIP, which, for the first time, integrates different vision models and incorporates a large language model as a text encoder to build a more powerful CLIP model, which achieves SOTA performance on nine zero-shot and four few-shot datasets. Our findings highlight CPath-Omni's ability to unify diverse pathology tasks, demonstrating its potential to streamline and advance the field of foundation model in pathology.
- Abstract(参考訳): 大型マルチモーダルモデル(LMM)の出現は、病理学に大きな進歩をもたらした。
これまでの研究は主に、パッチレベルと全体滑り画像(WSI)レベルのモデルを個別にトレーニングすること、パッチとWSI間の学習知識の統合を制限すること、結果として冗長なモデルを生み出すことに注力してきた。
本研究では,パッチとWSIレベルの画像解析を統一する最初の15ビリオンパラメータLMMであるCPath-Omniを紹介し,分類,視覚的質問応答,キャプション,視覚的参照プロンプトなど,両レベルのタスクを統合する。
大規模な実験により、CPath-Omniは、42のデータセットのうち39のタスクで7つの多様なタスクに対して、個々のタスクのためにトレーニングされたタスク固有のモデルのパフォーマンスまたは整合性を達成している。
さらに,CPath-Omniのための特殊な病理CLIPベースのビジュアルプロセッサを開発した。CPath-CLIPは,異なるビジョンモデルを初めて統合し,大きな言語モデルをテキストエンコーダとして組み込んで,より強力なCLIPモデルを構築する。
本研究は, CPath-Omniが多種多様な病態タスクを統一し, 基礎モデルの合理化と発展の可能性を示唆するものである。
関連論文リスト
- Free Lunch in Pathology Foundation Model: Task-specific Model Adaptation with Concept-Guided Feature Enhancement [18.839406725114042]
概念アンカー誘導型タスク固有特徴強調(CATE)を提案する。
CATEは、特定の下流タスクに対する病理基盤モデルの表現性と識別性を高めることができる。
パブリックなWSIデータセットの実験は、CATEがMILモデルの性能と一般化性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-11-15T02:38:00Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - MECFormer: Multi-task Whole Slide Image Classification with Expert Consultation Network [2.6954348706500766]
全スライド画像(WSI)分類は、診療所や病院におけるがん診断において重要な問題である。
この問題のために設計された従来のMILベースのモデルは、特定の臓器の個々のタスクでのみ評価されている。
本稿では,複数のタスクを1つのモデル内で処理するための生成トランスフォーマーモデルMECFormerを提案する。
論文 参考訳(メタデータ) (2024-10-06T14:56:23Z) - PathGen-1.6M: 1.6 Million Pathology Image-text Pairs Generation through Multi-agent Collaboration [14.979275480422213]
CLIPのような視覚言語モデル(VLM)は病理学に大きな注目を集めている。
病理学をトレーニングするための現在の取り組みは、PubMed、YouTube、Twitterなどのプラットフォームからの病理画像テキストペアに依存している。
TCGAのような大規模WSIデータセットを利用して、多数の高品質な画像パッチを抽出する。
論文 参考訳(メタデータ) (2024-06-28T19:18:09Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - PathoDuet: Foundation Models for Pathological Slide Analysis of H&E and IHC Stains [5.422494000842841]
PathoDuetは、病理組織像の事前訓練された一連のモデルであり、組織化学における新しい自己教師型学習フレームワークである。
このフレームワークは、新しく導入されたプリテキストトークンと後続のタスクライザーによって特徴付けられ、画像間の特定の関係を明示的に活用する。
クロススケール位置決めとクロスステイン転送という2つのプレテキストタスクは、モデルがヘマトキシリンとエオシンの画像で事前訓練されるように設計されている。
論文 参考訳(メタデータ) (2023-12-15T15:45:52Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - PathAsst: A Generative Foundation AI Assistant Towards Artificial
General Intelligence of Pathology [15.419350834457136]
病理学における診断・予測分析に革命をもたらすための多モード生成基盤AIアシスタントであるPathAsstを提案する。
PathAsstの開発には、データ取得、CLIPモデル適応、PathAsstのマルチモーダル生成機能のトレーニングの3つの重要なステップが含まれている。
PathAsstの実験結果は、病理診断と治療プロセスを改善するためにAIを利用した生成基盤モデルを活用する可能性を示している。
論文 参考訳(メタデータ) (2023-05-24T11:55:50Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。