論文の概要: MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis
- arxiv url: http://arxiv.org/abs/2311.08236v2
- Date: Mon, 22 Jul 2024 05:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:26:51.547848
- Title: MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis
- Title(参考訳): MeLo: 医用画像診断のためのファインチューニングよりも低ランク適応が優れている
- Authors: Yitao Zhu, Zhenrong Shen, Zihao Zhao, Sheng Wang, Xin Wang, Xiangyu Zhao, Dinggang Shen, Qian Wang,
- Abstract要約: ヴィジュアルトランスフォーマー(ViT)は、医療画像のコミュニティにとってずっと大きく、アクセスしにくくなっている。
MeLo(医療画像低ランク適応)は、リソース要求の微調整の代わりに低ランク適応を採用する。
提案手法は,4つの異なる医用画像データセット上で,完全に微調整されたVTモデルに匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 63.59184480010552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The common practice in developing computer-aided diagnosis (CAD) models based on transformer architectures usually involves fine-tuning from ImageNet pre-trained weights. However, with recent advances in large-scale pre-training and the practice of scaling laws, Vision Transformers (ViT) have become much larger and less accessible to medical imaging communities. Additionally, in real-world scenarios, the deployments of multiple CAD models can be troublesome due to problems such as limited storage space and time-consuming model switching. To address these challenges, we propose a new method MeLo (Medical image Low-rank adaptation), which enables the development of a single CAD model for multiple clinical tasks in a lightweight manner. It adopts low-rank adaptation instead of resource-demanding fine-tuning. By fixing the weight of ViT models and only adding small low-rank plug-ins, we achieve competitive results on various diagnosis tasks across different imaging modalities using only a few trainable parameters. Specifically, our proposed method achieves comparable performance to fully fine-tuned ViT models on four distinct medical imaging datasets using about 0.17% trainable parameters. Moreover, MeLo adds only about 0.5MB of storage space and allows for extremely fast model switching in deployment and inference. Our source code and pre-trained weights are available on our website (https://absterzhu.github.io/melo.github.io/).
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づくコンピュータ支援診断(CAD)モデルの開発における一般的な実践は、通常、ImageNet事前学習重量の微調整を伴う。
しかし、近年の大規模事前訓練やスケーリング法則の進歩により、ヴィジュアルトランスフォーマー(ViT)は医療画像のコミュニティではより大きくなり、アクセスしにくくなっている。
さらに、現実のシナリオでは、ストレージスペースの制限や時間を要するモデルスイッチングといった問題により、複数のCADモデルのデプロイが面倒になる可能性がある。
これらの課題に対処するため、我々は、複数の臨床タスクを対象とした単一のCADモデルの開発を軽量に行えるMeLo(医療画像低ランク適応)を提案する。
リソース要求の微調整ではなく、低ランク適応を採用する。
ViTモデルの重みを固定し、少量の低ランクプラグインを追加することで、訓練可能なパラメータのみを用いて、様々な画像モダリティの様々な診断タスクにおける競合結果を得る。
具体的には、約0.17%のトレーニング可能なパラメータを用いて、4つの異なる医用画像データセット上で、完全に微調整されたViTモデルに匹敵する性能を実現する。
さらに、MeLoは約0.5MBのストレージスペースのみを追加し、デプロイと推論において極めて高速なモデルスイッチを可能にする。
私たちのソースコードと事前トレーニングされたウェイトは、私たちのWebサイト(https://absterzhu.github.io/melo.github.io/)で利用可能です。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - DVPT: Dynamic Visual Prompt Tuning of Large Pre-trained Models for
Medical Image Analysis [30.608225734194416]
医用画像解析のための動的視覚的プロンプトチューニング手法DVPTを提案する。
トレーニング可能なパラメータがいくつかある大きなモデルから、下流タスクに有益な知識を抽出することができる。
最大60%のラベル付きデータと、ViT-B/16の99%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-07-19T07:11:11Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - AIM: Adapting Image Models for Efficient Video Action Recognition [22.805026175928997]
本稿では,映像理解のためのAIM (Adapted Pre-trained Image Models) を提案する。
事前学習したビデオモデルを凍結し、いくつかの軽量なアダプタを追加することにより、空間適応、時間適応、関節適応を導入する。
提案したAIMは,学習可能なパラメータが大幅に少ない先行技術よりも,競争力やパフォーマンスの向上が期待できることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:59:17Z) - PatchDropout: Economizing Vision Transformers Using Patch Dropout [9.243684409949436]
入力画像パッチをランダムにドロップすることで、標準のViTモデルを高解像度で効率的に訓練できることを示す。
我々はPatchDropoutを使って計算とメモリの5倍の節約と性能の向上を観察する。
論文 参考訳(メタデータ) (2022-08-10T14:08:55Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - A Meta-Learning Approach for Medical Image Registration [6.518615946009265]
グラデーションベースのメタラーニングフレームワークと統合した,新しい教師なし登録モデルを提案する。
実験の結果,提案モデルでは,精度とトレーニング時間の観点から,性能が有意に向上した。
論文 参考訳(メタデータ) (2021-04-21T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。