論文の概要: Reprogramming Distillation for Medical Foundation Models
- arxiv url: http://arxiv.org/abs/2407.06504v1
- Date: Tue, 9 Jul 2024 02:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:35:13.506363
- Title: Reprogramming Distillation for Medical Foundation Models
- Title(参考訳): 医療ファウンデーションモデルのための蒸留のリプログラミング
- Authors: Yuhang Zhou, Siyuan Du, Haolin Li, Jiangchao Yao, Ya Zhang, Yanfeng Wang,
- Abstract要約: 我々はリプログラミング蒸留(RD)と呼ばれる新しいフレームワークを提案する。
RDはファンデーションモデルの本来の機能空間を再プログラミングし、下流のシナリオとより関係があるようにします。
RDは従来のPEFT法やKD法よりも優れた性能を実現している。
- 参考スコア(独自算出の注目度): 37.52464627899668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical foundation models pre-trained on large-scale datasets have demonstrated powerful versatile capabilities for various tasks. However, due to the gap between pre-training tasks (or modalities) and downstream tasks (or modalities), the real-world computation and speed constraints, it might not be straightforward to apply medical foundation models in the downstream scenarios. Previous methods, such as parameter efficient fine-tuning (PEFT) methods and knowledge distillation (KD) methods, are unable to simultaneously address the task (or modality) inconsistency and achieve personalized lightweight deployment under diverse real-world demands. To address the above issues, we propose a novel framework called Reprogramming Distillation (RD). On one hand, RD reprograms the original feature space of the foundation model so that it is more relevant to downstream scenarios, aligning tasks and modalities. On the other hand, through a co-training mechanism and a shared classifier, connections are established between the reprogrammed knowledge and the knowledge of student models, ensuring that the reprogrammed feature space can be smoothly mimic by the student model of different structures. Further, to reduce the randomness under different training conditions, we design a Centered Kernel Alignment (CKA) distillation to promote robust knowledge transfer. Empirically, we show that on extensive datasets, RD consistently achieve superior performance compared with previous PEFT and KD methods.
- Abstract(参考訳): 大規模データセットで事前訓練された医療基礎モデルは、様々なタスクに対して強力な汎用能力を実証している。
しかし、事前学習タスク(またはモダリティ)と下流タスク(またはモダリティ)のギャップ、現実世界の計算と速度制約のため、下流シナリオに医療基盤モデルを適用するのは簡単ではないかもしれない。
パラメータ効率のよい微調整(PEFT)法や知識蒸留(KD)法といった従来の手法では、タスク(あるいはモダリティ)の不整合に同時に対処することができず、多様な現実世界の要求の下で、パーソナライズされた軽量展開を実現することはできない。
上記の問題に対処するため、我々はReming Distillation (RD)と呼ばれる新しいフレームワークを提案する。
一方、RDはファンデーションモデルの本来の特徴空間を再プログラムし、下流のシナリオとより関連性があり、タスクやモダリティを整合させる。
一方、共学習機構と共有分類器により、プログラムされた知識と学生モデルの知識との接続が確立され、プログラムされた特徴空間が異なる構造の学生モデルによって円滑に模倣されることが保証される。
さらに、異なる訓練条件下でのランダム性を低減するために、堅牢な知識伝達を促進するためにCKA蒸留を設計する。
実験により, 従来のPEFT法やKD法と比較して, RDが常に優れた性能を発揮することを示す。
関連論文リスト
- Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z) - Residual Pathway Priors for Soft Equivariance Constraints [44.19582621065543]
本稿では,厳密な制約をソフトな事前に変換する手法としてResidual Pathway Priors(RPP)を紹介する。
RPPは近似対称性や不特定対称性に耐性があり、対称性が正確であっても完全に制約されたモデルと同じくらい効果的である。
論文 参考訳(メタデータ) (2021-12-02T16:18:17Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。