論文の概要: Task-Specific Knowledge Distillation from the Vision Foundation Model for Enhanced Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.06976v1
- Date: Mon, 10 Mar 2025 06:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:10.934705
- Title: Task-Specific Knowledge Distillation from the Vision Foundation Model for Enhanced Medical Image Segmentation
- Title(参考訳): 医用画像セグメンテーションのための視覚基礎モデルからのタスク特異的知識蒸留
- Authors: Pengchen Liang, Haishan Huang, Bin Pu, Jianguo Chen, Xiang Hua, Jing Zhang, Weibo Ma, Zhuangzhuang Chen, Yiwei Li, Qing Chang,
- Abstract要約: 医用画像セグメンテーションのための新規で汎用的なタスク固有知識蒸留フレームワークを提案する。
提案手法は,目標セグメンテーションタスクのVFMを微調整し,より小さなモデルに知識を蒸留する前にタスク固有の特徴を抽出する。
5つの医用画像データセットに対する実験結果から,本手法はタスク非依存の知識蒸留より一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 13.018234326432964
- License:
- Abstract: Large-scale pre-trained models, such as Vision Foundation Models (VFMs), have demonstrated impressive performance across various downstream tasks by transferring generalized knowledge, especially when target data is limited. However, their high computational cost and the domain gap between natural and medical images limit their practical application in medical segmentation tasks. Motivated by this, we pose the following important question: "How can we effectively utilize the knowledge of large pre-trained VFMs to train a small, task-specific model for medical image segmentation when training data is limited?" To address this problem, we propose a novel and generalizable task-specific knowledge distillation framework. Our method fine-tunes the VFM on the target segmentation task to capture task-specific features before distilling the knowledge to smaller models, leveraging Low-Rank Adaptation (LoRA) to reduce the computational cost of fine-tuning. Additionally, we incorporate synthetic data generated by diffusion models to augment the transfer set, enhancing model performance in data-limited scenarios. Experimental results across five medical image datasets demonstrate that our method consistently outperforms task-agnostic knowledge distillation and self-supervised pretraining approaches like MoCo v3 and Masked Autoencoders (MAE). For example, on the KidneyUS dataset, our method achieved a 28% higher Dice score than task-agnostic KD using 80 labeled samples for fine-tuning. On the CHAOS dataset, it achieved an 11% improvement over MAE with 100 labeled samples. These results underscore the potential of task-specific knowledge distillation to train accurate, efficient models for medical image segmentation in data-constrained settings.
- Abstract(参考訳): ビジョン・ファンデーション・モデル(VFM)のような大規模事前学習モデルでは、特にターゲットデータに制限がある場合、一般化された知識を伝達することで、様々な下流タスクにおいて印象的な性能を示す。
しかし,その計算コストと自然画像と医用画像の領域ギャップは,医療セグメント化タスクにおける実用的応用を制限している。
トレーニングデータに制限がある場合、医療画像セグメンテーションのための小さなタスク固有のモデルをトレーニングするために、大規模なトレーニング済みVFMの知識を効果的に活用するにはどうすればよいのか?
この問題に対処するために,タスク固有の知識蒸留フレームワークを提案する。
提案手法は,目標セグメンテーションタスクのVFMを微調整し,より小さなモデルに知識を蒸留する前にタスク固有の特徴を抽出し,ローランド適応(LoRA)を利用して微調整の計算コストを削減する。
さらに、拡散モデルによって生成された合成データを組み込んで、データ制限シナリオにおけるモデル性能を向上させる。
5つの医用画像データセットに対する実験結果から,本手法はタスク非依存の知識蒸留や,MoCo v3 や Masked Autoencoders (MAE) などの自己指導型事前学習アプローチよりも優れていた。
例えば、KidneyUSデータセットでは、80個のラベル付きサンプルを用いて、タスクに依存しないKDよりも28%高いDiceスコアを得た。
CHAOSデータセットでは、100のラベル付きサンプルでMAEよりも11%改善された。
これらの結果は,データ制約条件下での医用画像セグメンテーションの正確かつ効率的なモデルの訓練を行うための,タスク固有の知識蒸留の可能性を明らかにするものである。
関連論文リスト
- LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。
我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。
LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文 参考訳(メタデータ) (2024-09-29T03:56:21Z) - Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。
ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。
我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文 参考訳(メタデータ) (2024-06-17T15:42:08Z) - VIS-MAE: An Efficient Self-supervised Learning Approach on Medical Image Segmentation and Classification [33.699424327366856]
医用画像に特化して設計された新しいモデルウェイトであるVisualization and Masked AutoEncoder(VIS-MAE)について述べる。
VIS-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットで訓練されている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models [41.292216950622084]
大量のデータセットに事前訓練されたビジョンファウンデーションモデル(VFM)は、さまざまな下流タスクで素晴らしいパフォーマンスを示す。
高い推論計算コストのため、これらのモデルは現実世界の多くのアプリケーションにデプロイすることはできない。
本稿では,課題指向の知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T04:07:44Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Self-Supervised Pre-Training with Contrastive and Masked Autoencoder
Methods for Dealing with Small Datasets in Deep Learning for Medical Imaging [8.34398674359296]
医用画像の深層学習は、診断ミスのリスクを最小限に抑え、放射線医の作業量を減らし、診断を加速する可能性がある。
このようなディープラーニングモデルのトレーニングには,すべてのトレーニングサンプルに対するアノテーションを備えた,大規模かつ正確なデータセットが必要です。
この課題に対処するために、ディープラーニングモデルは、自己教師付き学習の分野からのメソッドを使用してアノテーションなしで、大規模な画像データセット上で事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-08-12T11:31:01Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。