論文の概要: Vision Transformers for Small Histological Datasets Learned through
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2305.17370v1
- Date: Sat, 27 May 2023 05:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:54:28.981434
- Title: Vision Transformers for Small Histological Datasets Learned through
Knowledge Distillation
- Title(参考訳): 知識蒸留で学習した小さな組織データセットのための視覚変換器
- Authors: Neel Kanwal and Trygve Eftestol and Farbod Khoraminia and Tahlita CM
Zuiverloon and Kjersti Engan
- Abstract要約: 視覚変換器(ViT)は、診断アルゴリズムを実行する前に、人工物を検出して排除することができる。
堅牢で一般化されたViTを開発するための簡単な方法は、巨大なデータセットでそれらをトレーニングすることだ。
気泡検出タスクにおけるViTの分類性能を向上させるための生徒-教師のレシピを提案する。
- 参考スコア(独自算出の注目度): 1.4724454726700604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computational Pathology (CPATH) systems have the potential to automate
diagnostic tasks. However, the artifacts on the digitized histological glass
slides, known as Whole Slide Images (WSIs), may hamper the overall performance
of CPATH systems. Deep Learning (DL) models such as Vision Transformers (ViTs)
may detect and exclude artifacts before running the diagnostic algorithm. A
simple way to develop robust and generalized ViTs is to train them on massive
datasets. Unfortunately, acquiring large medical datasets is expensive and
inconvenient, prompting the need for a generalized artifact detection method
for WSIs. In this paper, we present a student-teacher recipe to improve the
classification performance of ViT for the air bubbles detection task. ViT,
trained under the student-teacher framework, boosts its performance by
distilling existing knowledge from the high-capacity teacher model. Our
best-performing ViT yields 0.961 and 0.911 F1-score and MCC, respectively,
observing a 7% gain in MCC against stand-alone training. The proposed method
presents a new perspective of leveraging knowledge distillation over transfer
learning to encourage the use of customized transformers for efficient
preprocessing pipelines in the CPATH systems.
- Abstract(参考訳): 計算病理学(CPATH)システムは、診断タスクを自動化する可能性がある。
しかしながら、デジタル化されたヒストロジカルガラススライドの人工物は、WSI(Whole Slide Images)と呼ばれ、CPATHシステム全体の性能を阻害する可能性がある。
視覚変換器(ViT)のようなディープラーニング(DL)モデルは、診断アルゴリズムを実行する前に人工物を検出して排除することができる。
堅牢で一般化されたViTを開発するための簡単な方法は、巨大なデータセットでトレーニングすることだ。
残念ながら、大規模な医療データセットの取得は高価で不便であり、WSIの汎用的なアーティファクト検出方法の必要性が生じる。
本稿では, 気泡検出タスクにおけるViTの分類性能を向上させるために, 学生と教師のレシピを提案する。
ViTは、高能力教師モデルから既存の知識を蒸留することで、生徒-教師の枠組みの下で訓練された。
ベストパフォーマンスのViTでは,それぞれ0.961,0.911F1スコア,MCCが得られ,スタンドアローントレーニングに対するMCCの7%の上昇が観察された。
提案手法は,CPATHシステムにおける効率的な前処理パイプラインにカスタマイズされたトランスフォーマの利用を促進するために,トランスファーラーニングよりも知識蒸留を活用する新しい視点を示す。
関連論文リスト
- Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets [30.178427266135756]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTは事前トレーニングに大量のデータを必要とする。
DeiT-LTを導入し、長い尾のデータセットのスクラッチからViTをトレーニングする問題に対処する。
論文 参考訳(メタデータ) (2024-04-03T17:58:21Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - Equipping Computational Pathology Systems with Artifact Processing Pipelines: A Showcase for Computation and Performance Trade-offs [0.7226586370054761]
損傷組織, ぼかし, 折りたたみ組織, 気泡, 組織学的に無関係な血液を含む5つの重要な人工物を検出するための専門家(MoE)の混合手法を提案する。
2つのMoEと2つのマルチクラスモデルであるDCNNとビジョントランスフォーマーを用いたDLパイプラインを開発した。
提案されたMoEは86.15%のF1と97.93%の感度スコアを持ち、ViTを用いたMoEよりも推論の計算コストが低い。
論文 参考訳(メタデータ) (2024-03-12T15:22:05Z) - Distilling Knowledge from CNN-Transformer Models for Enhanced Human
Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文 参考訳(メタデータ) (2023-11-02T14:57:58Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文 参考訳(メタデータ) (2023-02-28T17:13:14Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。