論文の概要: Fine-tuning a Multiple Instance Learning Feature Extractor with Masked
Context Modelling and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2403.05325v1
- Date: Fri, 8 Mar 2024 14:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:23:06.517327
- Title: Fine-tuning a Multiple Instance Learning Feature Extractor with Masked
Context Modelling and Knowledge Distillation
- Title(参考訳): マスキングコンテキストモデリングと知識蒸留による複数インスタンス学習特徴抽出器の微調整
- Authors: Juan I. Pisula and Katarzyna Bozek
- Abstract要約: 我々は,知識蒸留を用いたコンテキストモデリングを用いて特徴抽出モデルを微調整することにより,下流MIL分類を向上させることを提案する。
提案したタスクの1つのエポックは、MILシナリオで使用する場合の特徴抽出モデルの下流性能を向上させるのに十分であり、計算のごく一部を必要とする。
- 参考スコア(独自算出の注目度): 0.21756081703275998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The first step in Multiple Instance Learning (MIL) algorithms for Whole Slide
Image (WSI) classification consists of tiling the input image into smaller
patches and computing their feature vectors produced by a pre-trained feature
extractor model. Feature extractor models that were pre-trained with
supervision on ImageNet have proven to transfer well to this domain, however,
this pre-training task does not take into account that visual information in
neighboring patches is highly correlated. Based on this observation, we propose
to increase downstream MIL classification by fine-tuning the feature extractor
model using \textit{Masked Context Modelling with Knowledge Distillation}. In
this task, the feature extractor model is fine-tuned by predicting masked
patches in a bigger context window. Since reconstructing the input image would
require a powerful image generation model, and our goal is not to generate
realistically looking image patches, we predict instead the feature vectors
produced by a larger teacher network. A single epoch of the proposed task
suffices to increase the downstream performance of the feature-extractor model
when used in a MIL scenario, even capable of outperforming the downstream
performance of the teacher model, while being considerably smaller and
requiring a fraction of its compute.
- Abstract(参考訳): 完全スライド画像(WSI)分類のための多重インスタンス学習(MIL)アルゴリズムの最初のステップは、入力画像を小さなパッチにタイリングし、事前訓練された特徴抽出モデルによって生成された特徴ベクトルを計算することである。
ImageNetで事前訓練された特徴抽出器モデルは、この領域にうまく移行することが証明されているが、この事前訓練タスクは、隣接するパッチの視覚情報が高い相関関係にあることを考慮しない。
そこで本研究では,<textit{Masked Context Modelling with Knowledge Distillation} を用いて特徴抽出モデルを微調整することにより,下流MIL分類を改善することを提案する。
このタスクでは,マスク付きパッチをより大きなコンテキストウィンドウで予測することにより,特徴抽出モデルを微調整する。
入力画像の再構成には強力な画像生成モデルが必要となるため,より大規模な教師ネットワークで生成した特徴ベクトルを現実的に見ることではなく,その代わりに予測する。
提案するタスクの1つのエポックは、milシナリオで使用する場合のフィーチャー・エクストラクタモデルのダウンストリームパフォーマンスを増加させ、教師モデルのダウンストリームパフォーマンスを上回っても、かなり小さく、計算のごく一部を必要とする。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling [33.95780732124864]
Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
我々は,MIMに基づくH-GKD (Heterogeneous Generative Knowledge Distillation) を開発した。
本手法は,異種教師モデルからデータの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
論文 参考訳(メタデータ) (2023-09-18T08:30:55Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via
Feature Distillation [42.37533586611174]
Masked Image Modeling (MIM)は、非常に優れた微調整性能を持つ表現を学習する。
本稿では, 簡単な後処理により, 事前学習手法の微調整性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2022-05-27T17:59:36Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。