Fugu-MT 論文翻訳(概要): Agglomerating Large Vision Encoders via Distillation for VFSS Segmentation

論文の概要: Agglomerating Large Vision Encoders via Distillation for VFSS Segmentation

arxiv url: http://arxiv.org/abs/2504.02351v1
Date: Thu, 03 Apr 2025 07:38:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-11 20:36:09.521039
Title: Agglomerating Large Vision Encoders via Distillation for VFSS Segmentation
Title（参考訳）: VFSSセグメンテーションのための蒸留による大型ビジョンエンコーダの集約
Authors: Chengxi Zeng, Yuxuan Jiang, Fan Zhang, Alberto Gambaruto, Tilo Burghardt,
Abstract要約: 医用画像分割作業における低複雑性モデルの性能向上のための新しい枠組みを提案する。集約されたモデルは12のセグメンテーションタスクにまたがる優れた一般化を示すが、特殊なモデルは各タスクに対して明示的な訓練を必要とする。
参考スコア（独自算出の注目度）: 3.8945524993645106
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The deployment of foundation models for medical imaging has demonstrated considerable success. However, their training overheads associated with downstream tasks remain substantial due to the size of the image encoders employed, and the inference complexity is also significantly high. Although lightweight variants have been obtained for these foundation models, their performance is constrained by their limited model capacity and suboptimal training strategies. In order to achieve an improved tradeoff between complexity and performance, we propose a new framework to improve the performance of low complexity models via knowledge distillation from multiple large medical foundation models (e.g., MedSAM, RAD-DINO, MedCLIP), each specializing in different vision tasks, with the goal to effectively bridge the performance gap for medical image segmentation tasks. The agglomerated model demonstrates superior generalization across 12 segmentation tasks, whereas specialized models require explicit training for each task. Our approach achieved an average performance gain of 2\% in Dice coefficient compared to simple distillation.
Abstract（参考訳）: 医用画像のための基礎モデルの展開は、かなりの成功を収めた。しかし、画像エンコーダのサイズのため、下流タスクに関連するトレーニングオーバーヘッドは依然として大きく、推論の複雑さも著しく高い。これらの基礎モデルに対して軽量な変種が得られたが、それらの性能はモデル能力の制限と準最適訓練戦略によって制限されている。複雑度と性能のトレードオフを改善するために,複数の大規模医療基盤モデル(例えば,MedSAM,RAD-DINO,MedCLIP)からの知識蒸留による低複雑性モデルの性能向上を目的とした新しい枠組みを提案する。集約されたモデルは12のセグメンテーションタスクにまたがる優れた一般化を示すが、特殊なモデルは各タスクに対して明示的な訓練を必要とする。本手法は, 簡易蒸留法と比較して, ディース係数の平均性能向上率を 2 % とした。

関連論文リスト

Task-Specific Knowledge Distillation from the Vision Foundation Model for Enhanced Medical Image Segmentation [13.018234326432964]
医用画像セグメンテーションのための新規で汎用的なタスク固有知識蒸留フレームワークを提案する。提案手法は,目標セグメンテーションタスクのVFMを微調整し,より小さなモデルに知識を蒸留する前にタスク固有の特徴を抽出する。 5つの医用画像データセットに対する実験結果から,本手法はタスク非依存の知識蒸留より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-10T06:39:53Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
KA$^2$ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation [5.807887214293438]
本稿では,多元的基礎モデルを学習し,複数のエキスパートモデルの協調的な目標に対処することを目的としたアダプティブ・アマルガメーション・ナレッジ・フレームワークを提案する。特に、まず、各タスクに対してnnUNetベースのエキスパートモデルをトレーニングし、トレーニング済みのSwinUNTERをターゲット基盤モデルとして再利用する。隠蔽層内の階層的アテンション機構は、すべての専門家の隠蔽層の特徴知識にターゲットモデルの適応的なマージを実現するように設計されている。
論文参考訳（メタデータ） (2024-10-28T14:49:17Z)
SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文参考訳（メタデータ） (2024-10-18T11:49:40Z)
LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。 LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文参考訳（メタデータ） (2024-09-29T03:56:21Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
Few-Shot Airway-Tree Modeling using Data-Driven Sparse Priors [0.0]
限られたアノテートデータのみを使用して事前訓練されたモデルを転送するには、少ないショットの学習アプローチが費用対効果がある。我々は,肺CTスキャンにおいて,気道の効率を高めるために,データ駆動型スペーシフィケーションモジュールを訓練する。次に、これらのスパース表現を標準教師付きセグメンテーションパイプラインに組み込み、DLモデルの性能を高めるための事前学習ステップとする。
論文参考訳（メタデータ） (2024-07-05T13:46:11Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文参考訳（メタデータ） (2023-05-23T13:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。