論文の概要: Knowledge Distillation for Adaptive MRI Prostate Segmentation Based on
Limit-Trained Multi-Teacher Models
- arxiv url: http://arxiv.org/abs/2303.09494v1
- Date: Thu, 16 Mar 2023 17:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:25:52.448267
- Title: Knowledge Distillation for Adaptive MRI Prostate Segmentation Based on
Limit-Trained Multi-Teacher Models
- Title(参考訳): 限界学習型マルチ教師モデルに基づく適応型MRI前立腺分画の知識蒸留
- Authors: Eddardaa Ben Loussaief, Hatem Rashwan, Mohammed Ayad, Mohammed Zakaria
Hassan, and Domenec Puig
- Abstract要約: 圧縮法と加速技術として知識蒸留(KD)が提案されている。
KDは、負担の多いモデルから軽量モデルに知識を移行できる効率的な学習戦略である。
本研究では,KDに基づく前立腺MRIセグメンテーションの深部モデルを構築し,Kellback-Leiblerの発散,Lovasz,Diceの損失と特徴量に基づく蒸留を組み合わせる。
- 参考スコア(独自算出の注目度): 4.711401719735324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With numerous medical tasks, the performance of deep models has recently
experienced considerable improvements. These models are often adept learners.
Yet, their intricate architectural design and high computational complexity
make deploying them in clinical settings challenging, particularly with devices
with limited resources. To deal with this issue, Knowledge Distillation (KD)
has been proposed as a compression method and an acceleration technology. KD is
an efficient learning strategy that can transfer knowledge from a burdensome
model (i.e., teacher model) to a lightweight model (i.e., student model). Hence
we can obtain a compact model with low parameters with preserving the teacher's
performance. Therefore, we develop a KD-based deep model for prostate MRI
segmentation in this work by combining features-based distillation with
Kullback-Leibler divergence, Lovasz, and Dice losses. We further demonstrate
its effectiveness by applying two compression procedures: 1) distilling
knowledge to a student model from a single well-trained teacher, and 2) since
most of the medical applications have a small dataset, we train multiple
teachers that each one trained with a small set of images to learn an adaptive
student model as close to the teachers as possible considering the desired
accuracy and fast inference time. Extensive experiments were conducted on a
public multi-site prostate tumor dataset, showing that the proposed adaptation
KD strategy improves the dice similarity score by 9%, outperforming all tested
well-established baseline models.
- Abstract(参考訳): 多くの医療業務において、深層モデルの性能は近年大幅に改善されている。
これらのモデルは、しばしば熟練した学習者です。
しかし、複雑なアーキテクチャ設計と高い計算複雑性により、特に限られたリソースを持つデバイスにおいて、臨床環境でのデプロイが困難になる。
この問題に対処するために、圧縮法と加速技術として知識蒸留(KD)が提案されている。
kdは、知識を負担の多いモデル(教師モデル)から軽量モデル(生徒モデル)に移すことができる効率的な学習戦略である。
したがって,教師のパフォーマンスを保ったまま,低パラメータのコンパクトモデルが得られる。
そこで本研究では,kd-based deep model for prostate mri segmentation を開発し,kd-based distillation と kullback-leibler divergence, lovasz, dice loss を組み合わせた。
2つの圧縮手順を適用することで、その効果をさらに実証する。
1)教養のある一人の教師から生徒モデルに知識を蒸留すること,及び
2) 医療用アプリケーションは, ほとんどが小さなデータセットを持っているため, 個々の教師が小さな画像セットで訓練し, 希望する精度と高速な推論時間を考慮して, 教師にできるだけ近い適応型学習モデルを学ぶように訓練する。
一般の多部位前立腺腫瘍データセットを用いた広範囲な実験を行い,提案手法がdice類似度スコアを9%向上させることを示した。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - SSD-KD: A Self-supervised Diverse Knowledge Distillation Method for
Lightweight Skin Lesion Classification Using Dermoscopic Images [62.60956024215873]
皮膚がんは最も一般的な悪性腫瘍の1つであり、人口に影響を与え、世界中で経済的な重荷を負っている。
皮膚がん検出のほとんどの研究は、ポータブルデバイス上での計算資源の制限を考慮せずに、高い予測精度を追求している。
本研究は,皮膚疾患分類のための汎用的なKDフレームワークに多様な知識を統一する,SSD-KDと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T06:54:29Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。