論文の概要: Comparing Computational Pathology Foundation Models using Representational Similarity Analysis
- arxiv url: http://arxiv.org/abs/2509.15482v1
- Date: Thu, 18 Sep 2025 23:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.934267
- Title: Comparing Computational Pathology Foundation Models using Representational Similarity Analysis
- Title(参考訳): 表現類似性分析を用いた計算病理基盤モデルの比較
- Authors: Vaibhav Mishra, William Lotter,
- Abstract要約: 計算神経科学の手法を用いて、6つのCPath基礎モデルの表現空間を体系的に解析する。
UNI2 と Virchow2 は最も異なる表現構造を持つのに対し、Prov-Gigapath はモデル間の平均類似度が最も高い。
- 参考スコア(独自算出の注目度): 0.6660458629649825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are increasingly developed in computational pathology (CPath) given their promise in facilitating many downstream tasks. While recent studies have evaluated task performance across models, less is known about the structure and variability of their learned representations. Here, we systematically analyze the representational spaces of six CPath foundation models using techniques popularized in computational neuroscience. The models analyzed span vision-language contrastive learning (CONCH, PLIP, KEEP) and self-distillation (UNI (v2), Virchow (v2), Prov-GigaPath) approaches. Through representational similarity analysis using H&E image patches from TCGA, we find that UNI2 and Virchow2 have the most distinct representational structures, whereas Prov-Gigapath has the highest average similarity across models. Having the same training paradigm (vision-only vs. vision-language) did not guarantee higher representational similarity. The representations of all models showed a high slide-dependence, but relatively low disease-dependence. Stain normalization decreased slide-dependence for all models by a range of 5.5% (CONCH) to 20.5% (PLIP). In terms of intrinsic dimensionality, vision-language models demonstrated relatively compact representations, compared to the more distributed representations of vision-only models. These findings highlight opportunities to improve robustness to slide-specific features, inform model ensembling strategies, and provide insights into how training paradigms shape model representations. Our framework is extendable across medical imaging domains, where probing the internal representations of foundation models can help ensure effective development and deployment.
- Abstract(参考訳): ファンデーションモデルは、多くの下流タスクを円滑に行うという彼らの約束を踏まえ、計算病理学(CPath)でますます発展している。
近年の研究では、モデル間でのタスクパフォーマンスが評価されているが、学習された表現の構造や変数についてはあまり知られていない。
本稿では,6つのCPath基礎モデルの表現空間を,計算神経科学に普及した手法を用いて体系的に解析する。
これらのモデルは、視覚言語コントラスト学習(CONCH, PLIP, KEEP)と自己蒸留(UNI (v2), Virchow (v2), Prov-GigaPath)のアプローチを対象とする。
TCGAのH&E画像パッチを用いた表現類似性解析により、UNI2とVirchow2は最も異なる表現構造を持つのに対し、Prov-Gigapathはモデル間の平均類似度が最も高い。
同じ訓練パラダイム(ビジョンのみ対ビジョン言語)を持つことは、より高い表現的類似性を保証するには至らなかった。
各モデルの表現は高いスライド依存性を示したが, 疾患依存性は比較的低かった。
標準化により、すべてのモデルのスライド依存性は5.5%(CONCH)から20.5%(PLIP)に減少した。
内在的な次元性の観点から、視覚言語モデルは、視覚のみのモデルのより分散した表現と比較して比較的コンパクトな表現を示した。
これらの知見は、スライド特化機能に対する堅牢性の向上、モデルの理解戦略の通知、モデルの表現を形成するためのトレーニングパラダイムに関する洞察を提供する機会を浮き彫りにしている。
我々のフレームワークは医療画像領域にまたがって拡張可能であり、基礎モデルの内部表現を探索することで、効果的な開発と展開の確保に役立てることができる。
関連論文リスト
- Learning Diffusion Models with Flexible Representation Guidance [37.301580601018365]
本稿では,表現指導を拡散モデルに組み込むための体系的枠組みを提案する。
拡散モデルにおける表現アライメントを強化するための2つの新しい戦略を導入する。
画像、タンパク質配列、分子生成タスクにわたる実験は、優れた性能を示し、訓練を加速する。
論文 参考訳(メタデータ) (2025-07-11T19:29:02Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - The Importance of Downstream Networks in Digital Pathology Foundation Models [1.689369173057502]
162のアグリゲーションモデル構成を持つ3つの異なるデータセットにまたがる7つの特徴抽出モデルを評価する。
多くの特徴抽出器モデルの性能は顕著に類似していることが判明した。
論文 参考訳(メタデータ) (2023-11-29T16:54:25Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。