Fugu-MT 論文翻訳(概要): Rethinking Pre-trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification

論文の概要: Rethinking Pre-trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification

arxiv url: http://arxiv.org/abs/2408.01167v1
Date: Fri, 2 Aug 2024 10:34:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 13:47:29.371532
Title: Rethinking Pre-trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification
Title（参考訳）: 全スライド画像分類のための複数インスタンス学習における事前訓練された特徴外子選択の再考
Authors: Bryan Wong, Mun Yong Yi,
Abstract要約: 多重インスタンス学習(MIL)は、ギガピクセル全体のスライド画像(WSI)を分類する方法として好まれている。本研究では,3次元のMIL特徴抽出器(事前学習データセット,バックボーンモデル,事前学習方法)について検討した。
参考スコア（独自算出の注目度）: 2.6703221234079946
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiple instance learning (MIL) has become a preferred method for classifying gigapixel whole slide images (WSIs), without requiring patch label annotation. The focus of the current MIL research stream is on the embedding-based MIL approach, which involves extracting feature vectors from patches using a pre-trained feature extractor. These feature vectors are then fed into an MIL aggregator for slide-level prediction. Despite prior research suggestions on enhancing the most commonly used ResNet50 supervised model pre-trained on ImageNet-1K, there remains a lack of clear guidance on selecting the optimal feature extractor to maximize WSI performance. This study aims at addressing this gap by examining MIL feature extractors across three dimensions: pre-training dataset, backbone model, and pre-training method. Extensive experiments were carried out on the two public WSI datasets (TCGA-NSCLC and Camelyon16) using four SOTA MIL models. The main findings indicate the following: 1) Performance significantly improves with larger and more varied pre-training datasets in both CNN and Transformer backbones. 2) `Modern and deeper' backbones greatly outperform `standard' backbones (ResNet and ViT), with performance improvements more guaranteed in Transformer-based backbones. 3) The choice of self-supervised learning (SSL) method is crucial, with the most significant benefits observed when applied to the Transformer (ViT) backbone. The study findings have practical implications, including designing more effective pathological foundation models. Our code is available at: https://anonymous.4open.science/r/MIL-Feature-Extractor-Selection
Abstract（参考訳）: 多重インスタンス学習(MIL)は、パッチラベルアノテーションを必要とせず、ギガピクセル全体のスライド画像(WSI)を分類する方法として好まれている。現在のMIL研究ストリームの焦点は、事前訓練された特徴抽出器を使用してパッチから特徴ベクトルを抽出する組み込みベースのMILアプローチである。これらの特徴ベクトルは、スライドレベルの予測のためにMILアグリゲータに入力される。 ImageNet-1Kで事前訓練された最も一般的なResNet50教師付きモデルの強化に関する以前の研究提案にもかかわらず、WSI性能を最大化するために最適な特徴抽出器を選択するための明確なガイダンスがない。本研究は,3次元のMIL特徴抽出器(事前学習データセット,バックボーンモデル,事前学習手法)を用いて,このギャップに対処することを目的とする。 4つのSOTA MILモデルを用いて2つのWSIデータセット(TCGA-NSCLCとCamelyon16)で大規模な実験を行った。主な発見は以下のとおりである。 1) CNNとTransformerのバックボーンにおいて,より大きく,より多様な事前トレーニングデータセットにより,パフォーマンスが大幅に向上する。 2) `Modern and Deep' バックボーンは ‘standard' バックボーン(ResNet と ViT)を大幅に上回り、Transformer ベースのバックボーンではパフォーマンス改善がより保証されている。 3) Transformer (ViT) バックボーンに適用した場合, 自己教師あり学習 (SSL) の選択は極めて重要である。研究結果は、より効果的な病理基盤モデルの設計を含む、実践的な意味を持つ。私たちのコードは、https://anonymous.4open.science/r/MIL-Feature-Extractor-Selectionで利用可能です。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
SimMIL: A Universal Weakly Supervised Pre-Training Framework for Multi-Instance Learning in Whole Slide Pathology Images [12.827931905880163]
本稿では,弱教師付きスキームを用いたMIL機能抽出器を提案する。 MILの効果的な特徴を学習するために、強いデータ拡張、非線形予測ヘッド、ロバストな損失関数など、いくつかの重要なコンポーネントを探索する。我々は、一般的な大規模WSIデータセットで実験を行い、他の事前学習方式よりも優れた性能が得られることを発見した。
論文参考訳（メタデータ） (2025-05-10T17:23:36Z)
MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification [0.7510165488300369]
バグベースのMIL(Multiple Instance Learning)アプローチが、WSI(Whole Slide Image)分類の主流方法論として登場した。本稿では,マルチスケール特徴抽出と複数インスタンス学習を統合したエンドツーエンドのWSI分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T16:16:44Z)
Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。 TCGAデータセットの4つの実験により、我々のQPMIL-VLフレームワークが漸進的なWSI分類に有効であることが示された。
論文参考訳（メタデータ） (2024-10-14T14:49:34Z)
An efficient framework based on large foundation model for cervical cytopathology whole slide image screening [13.744580492120749]
本稿では,教師なし・弱教師付き学習によるWSIレベルラベルのみを用いた頚部細胞病理学WSI分類のための効率的なフレームワークを提案する。 CSDおよびFNAC 2019データセットで実施された実験は、提案手法が様々なMIL手法の性能を高め、最先端(SOTA)性能を達成することを示した。
論文参考訳（メタデータ） (2024-07-16T08:21:54Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-13T04:16:40Z)
SSPNet: Scale and Spatial Priors Guided Generalizable and Interpretable Pedestrian Attribute Recognition [23.55622798950833]
Pedestrian Attribute Recognition(PAR)モデルに対して,SSPNet(Scale and Spatial Priors Guided Network)を提案する。 SSPNetは、異なる属性グループに対して適切なスケールの事前情報を提供することを学び、モデルが異なるレベルの機能マップに集中できるようにする。 Weakly-supervised Pedestrian Attribute Localization (WPAL) に対して, 属性応答マスクのGrad-CAMの改良に基づく新しいIoU属性ローカライゼーション指標を提案する。
論文参考訳（メタデータ） (2023-12-11T00:41:40Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Towards Better Object Detection in Scale Variation with Adaptive Feature Selection [3.5352273012717044]
チャネル次元の多レベル表現を融合する方法を自動学習する新しい適応的特徴選択モジュール(AFSM)を提案する。これは、特徴ピラミッド構造を持つ検出器の性能を著しく向上させる。クラス不均衡問題に対処するために,クラス対応サンプリング機構(CASM)を提案する。
論文参考訳（メタデータ） (2020-12-06T13:41:20Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。