論文の概要: Multi-Modal Foundation Models for Computational Pathology: A Survey
- arxiv url: http://arxiv.org/abs/2503.09091v2
- Date: Thu, 20 Mar 2025 16:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:29.118565
- Title: Multi-Modal Foundation Models for Computational Pathology: A Survey
- Title(参考訳): 計算病理学のためのマルチモーダルファンデーションモデル:サーベイ
- Authors: Dong Li, Guihong Wan, Xintao Wu, Xinyu Wu, Xiaohui Chen, Yi He, Christine G. Lian, Peter K. Sorger, Yevgeniy R. Semenov, Chen Zhao,
- Abstract要約: 基礎モデルは、計算病理学(CPath)の強力なパラダイムとして登場した。
我々は、32の最先端マルチモーダル基盤モデルを、視覚言語、視覚知識グラフ、視覚生成表現の3つの主要なパラダイムに分類する。
病理学に適した28の利用可能なマルチモーダルデータセットを分析し、画像テキストペア、命令データセット、画像以外のモダリティペアにグループ化する。
- 参考スコア(独自算出の注目度): 32.25958653387204
- License:
- Abstract: Foundation models have emerged as a powerful paradigm in computational pathology (CPath), enabling scalable and generalizable analysis of histopathological images. While early developments centered on uni-modal models trained solely on visual data, recent advances have highlighted the promise of multi-modal foundation models that integrate heterogeneous data sources such as textual reports, structured domain knowledge, and molecular profiles. In this survey, we provide a comprehensive and up-to-date review of multi-modal foundation models in CPath, with a particular focus on models built upon hematoxylin and eosin (H&E) stained whole slide images (WSIs) and tile-level representations. We categorize 32 state-of-the-art multi-modal foundation models into three major paradigms: vision-language, vision-knowledge graph, and vision-gene expression. We further divide vision-language models into non-LLM-based and LLM-based approaches. Additionally, we analyze 28 available multi-modal datasets tailored for pathology, grouped into image-text pairs, instruction datasets, and image-other modality pairs. Our survey also presents a taxonomy of downstream tasks, highlights training and evaluation strategies, and identifies key challenges and future directions. We aim for this survey to serve as a valuable resource for researchers and practitioners working at the intersection of pathology and AI.
- Abstract(参考訳): 基礎モデルは計算病理学(CPath)の強力なパラダイムとして登場し、組織像のスケーラブルで一般化可能な解析を可能にしている。
視覚データのみを訓練したユニモーダルモデルを中心とした初期の開発は、テキストレポートや構造化ドメイン知識、分子プロファイルといった異種データソースを統合するマルチモーダル基盤モデルの実現が注目されている。
本調査では,ヘマトキシリンおよびエオシン(H&E)によるスライディング画像全体(WSI)およびタイルレベルの表現に基づくモデルを中心に,CPathにおけるマルチモーダル基盤モデルの包括的かつ最新のレビューを行う。
我々は、32の最先端マルチモーダル基盤モデルを、視覚言語、視覚知識グラフ、視覚生成表現の3つの主要なパラダイムに分類する。
さらに、視覚言語モデルを非LLMおよびLLMベースのアプローチに分割する。
さらに、画像テキストペア、命令データセット、画像と他のモダリティペアにグループ化された、病理に適した28の利用可能なマルチモーダルデータセットを分析した。
また,下流タスクの分類を提示し,トレーニングと評価戦略を強調し,重要な課題と今後の方向性を明らかにした。
我々は、この調査が、病理学とAIの交差点で働く研究者や実践者にとって貴重な情報源になることを目標にしている。
関連論文リスト
- A Survey on Computational Pathology Foundation Models: Datasets, Adaptation Strategies, and Evaluation Tasks [22.806228975730008]
計算病理基盤モデル (CPathFMs) は, 組織学的データを解析するための強力なアプローチとして出現している。
これらのモデルは、セグメンテーション、分類、バイオマーカー発見のような複雑な病理タスクを自動化することを約束している。
しかし、CPathFMsの開発は、データアクセシビリティの制限、データセット間の高いばらつき、標準化された評価ベンチマークの欠如など、大きな課題を呈している。
論文 参考訳(メタデータ) (2025-01-27T01:27:59Z) - CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology [17.781388341968967]
CPath-OmniはパッチとWSIレベルの画像解析を統合するために設計された最初のLMMである。
CPath-Omniは、42データセット中39のタスクに対して、最新技術(SOTA)のパフォーマンスを達成する。
CPath-CLIPは、初めて異なるビジョンモデルを統合し、大きな言語モデルをテキストエンコーダとして組み込んで、より強力なCLIPモデルを構築する。
論文 参考訳(メタデータ) (2024-12-16T18:46:58Z) - Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - How Good Are We? Evaluating Cell AI Foundation Models in Kidney Pathology with Human-in-the-Loop Enrichment [11.60167559546617]
AI基盤モデルのトレーニングは、現実の医療課題に対処するための、有望な大規模学習アプローチとして登場した。
これらのモデルの多くは、疾患の診断や組織定量化などのタスクのために開発されたが、単一の臓器内の核分割のような最も単純なタスクに展開するための準備が整っていないことは確かである。
本稿では、最近の細胞基盤モデルの性能をキュレートされたデータセット上で徹底的に評価することにより、この重要な疑問である「我々はどのくらい良いのか?」に答えようとしている。
論文 参考訳(メタデータ) (2024-10-31T17:00:33Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。
既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。
この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - A Survey for Foundation Models in Autonomous Driving [10.315409708116865]
大規模言語モデルは、自動運転における計画とシミュレーションに寄与する。
ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応している。
多様な入力を統合するマルチモーダル基礎モデルは、例外的な視覚的理解と空間的推論を示す。
論文 参考訳(メタデータ) (2024-02-02T02:44:59Z) - Recognizing Identities From Human Skeletons: A Survey on 3D Skeleton Based Person Re-Identification [60.939250172443586]
3Dスケルトンによる人物の再同定は、パターン認識コミュニティ内で注目を集める重要な研究分野である。
近年のSRID進歩の総合的なレビューと分析を行っている。
様々なベンチマークやプロトコルを用いて、最先端のSRID手法の徹底的な評価を行い、その有効性と効率性を比較した。
論文 参考訳(メタデータ) (2024-01-27T04:52:24Z) - Foundational Models in Medical Imaging: A Comprehensive Survey and
Future Vision [6.2847894163744105]
ファンデーションモデルは、広範囲の下流タスクに適応した大規模で事前訓練されたディープラーニングモデルである。
これらのモデルは、コンテキスト推論、一般化、テスト時の迅速な機能を促進する。
コンピュータビジョンの進歩に乗じて、医療画像はこれらのモデルへの関心も高まっている。
論文 参考訳(メタデータ) (2023-10-28T12:08:12Z) - Multimodal Foundation Models: From Specialists to General-Purpose
Assistants [187.72038587829223]
研究のランドスケープには5つの中核的なトピックが含まれており、2つのクラスに分類されている。
対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文 参考訳(メタデータ) (2023-09-18T17:56:28Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。