論文の概要: Revisiting Automatic Data Curation for Vision Foundation Models in Digital Pathology
- arxiv url: http://arxiv.org/abs/2503.18709v1
- Date: Mon, 24 Mar 2025 14:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:37.324050
- Title: Revisiting Automatic Data Curation for Vision Foundation Models in Digital Pathology
- Title(参考訳): デジタル病理における視覚基盤モデルのための自動データキュレーションの再検討
- Authors: Boqi Chen, Cédric Vincent-Cuaz, Lydia A. Schoenpflug, Manuel Madeira, Lisa Fournier, Vaishnavi Subramanian, Sonali Andani, Samuel Ruiperez-Campillo, Julia E. Vogt, Raphaëlle Luisier, Dorina Thanou, Viktor H. Koelzer, Pascal Frossard, Gabriele Campanella, Gunnar Rätsch,
- Abstract要約: 視覚基盤モデル(FM)は、全スライディング画像から抽出された高度に異質なタイルの組織学的特徴を表現することを学ぶ。
タイルレベルでの教師なし自動データキュレーションの可能性について検討し,3億5000万個のタイルを考慮に入れた。
- 参考スコア(独自算出の注目度): 41.34847597178388
- License:
- Abstract: Vision foundation models (FMs) are accelerating the development of digital pathology algorithms and transforming biomedical research. These models learn, in a self-supervised manner, to represent histological features in highly heterogeneous tiles extracted from whole-slide images (WSIs) of real-world patient samples. The performance of these FMs is significantly influenced by the size, diversity, and balance of the pre-training data. However, data selection has been primarily guided by expert knowledge at the WSI level, focusing on factors such as disease classification and tissue types, while largely overlooking the granular details available at the tile level. In this paper, we investigate the potential of unsupervised automatic data curation at the tile-level, taking into account 350 million tiles. Specifically, we apply hierarchical clustering trees to pre-extracted tile embeddings, allowing us to sample balanced datasets uniformly across the embedding space of the pretrained FM. We further identify these datasets are subject to a trade-off between size and balance, potentially compromising the quality of representations learned by FMs, and propose tailored batch sampling strategies to mitigate this effect. We demonstrate the effectiveness of our method through improved performance on a diverse range of clinically relevant downstream tasks.
- Abstract(参考訳): ビジョンファウンデーションモデル(FM)は、デジタル病理アルゴリズムの開発と生体医学研究の変容を加速している。
これらのモデルは、実世界の患者サンプルの全スライディング画像(WSI)から抽出した、高度に異質なタイルの組織学的特徴を表現するために、自己監督的な方法で学習する。
これらのFMの性能は、事前学習データのサイズ、多様性、バランスに大きく影響される。
しかし、データ選択は、主にWSIレベルの専門家の知識によって導かれ、病気の分類や組織型などの要因に焦点を当て、タイルレベルで利用できる詳細な詳細を概ね見落としている。
本稿では,3億5000万個のタイルを考慮に入れ,タイルレベルでの教師なし自動データキュレーションの可能性について検討する。
具体的には、階層的なクラスタリング木を事前抽出したタイル埋め込みに適用し、事前訓練されたFMの埋め込み空間全体にわたってバランスの取れたデータセットを均一にサンプリングすることができる。
さらに、これらのデータセットは、サイズとバランスのトレードオフの対象であり、FMが学習した表現の質を損なう可能性があり、この効果を緩和するための調整されたバッチサンプリング戦略を提案する。
本手法の有効性を,臨床関連課題の多種多様さで評価し,その有効性を実証する。
関連論文リスト
- Dataset Distillation for Histopathology Image Classification [46.04496989951066]
病理画像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。
提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。
論文 参考訳(メタデータ) (2024-08-19T05:53:38Z) - Meta Transfer of Self-Supervised Knowledge: Foundation Model in Action
for Post-Traumatic Epilepsy Prediction [0.6291443816903801]
基礎モデルに新たなトレーニング戦略を導入する。
提案手法は,小規模臨床データセットのタスク性能を著しく向上することを示す。
さらに, 基礎モデルの一般化性の向上を実証した。
論文 参考訳(メタデータ) (2023-12-21T07:42:49Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Explainable Techniques for Analyzing Flow Cytometry Cell Transformers [0.0]
我々は、注意の可視化を容易にするReluFormerと呼ばれるトランスフォーマーアーキテクチャの使用法を評価する。
本稿では,Flow CytoMetry(FCM)データに適した勾配と注意に基づく可視化手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T02:03:52Z) - Topologically Regularized Multiple Instance Learning to Harness Data
Scarcity [15.06687736543614]
複数のインスタンス学習モデルは、患者の顕微鏡サンプルを分類するための強力なツールとして登場した。
我々は、この課題を緩和するために、MILにトポロジカル正規化用語を導入します。
MILベンチマークは平均2.8%、合成MILデータセットは15.3%、現実世界のバイオメディカルデータセットは5.5%である。
論文 参考訳(メタデータ) (2023-07-26T08:14:18Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - XDEEP-MSI: Explainable Bias-Rejecting Microsatellite Instability Deep
Learning System In Colorectal Cancer [0.0]
組織マイクロアレイ(TMA)用にカスタマイズされたDL技術を用いて大腸癌のH&E画像からマイクロサテライト不安定(MSI)を予測するシステムを提案する。
本システムは、組織モジュールによって誘導される関心領域において、複数の倍率でタイルを生産するエンドツーエンド画像前処理モジュールと、多バイアス拒絶モジュールとを具備する。
論文 参考訳(メタデータ) (2021-10-28T17:58:01Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。