論文の概要: DVPT: Dynamic Visual Prompt Tuning of Large Pre-trained Models for
Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2307.09787v1
- Date: Wed, 19 Jul 2023 07:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:05:32.986243
- Title: DVPT: Dynamic Visual Prompt Tuning of Large Pre-trained Models for
Medical Image Analysis
- Title(参考訳): DVPT:医療画像解析のための大規模訓練済みモデルの動的視覚プロンプトチューニング
- Authors: Along He, Kai Wang, Zhihong Wang, Tao Li, and Huazhu Fu
- Abstract要約: 医用画像解析のための動的視覚的プロンプトチューニング手法DVPTを提案する。
トレーニング可能なパラメータがいくつかある大きなモデルから、下流タスクに有益な知識を抽出することができる。
最大60%のラベル付きデータと、ViT-B/16の99%のストレージコストを節約できる。
- 参考スコア(独自算出の注目度): 30.608225734194416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Limited labeled data makes it hard to train models from scratch in medical
domain, and an important paradigm is pre-training and then fine-tuning. Large
pre-trained models contain rich representations, which can be adapted to
downstream medical tasks. However, existing methods either tune all the
parameters or the task-specific layers of the pre-trained models, ignoring the
input variations of medical images, and thus they are not efficient or
effective. In this work, we aim to study parameter-efficient fine-tuning (PEFT)
for medical image analysis, and propose a dynamic visual prompt tuning method,
named DVPT. It can extract knowledge beneficial to downstream tasks from large
models with a few trainable parameters. Firstly, the frozen features are
transformed by an lightweight bottleneck layer to learn the domain-specific
distribution of downstream medical tasks, and then a few learnable visual
prompts are used as dynamic queries and then conduct cross-attention with the
transformed features, attempting to acquire sample-specific knowledge that are
suitable for each sample. Finally, the features are projected to original
feature dimension and aggregated with the frozen features. This DVPT module can
be shared between different Transformer layers, further reducing the trainable
parameters. To validate DVPT, we conduct extensive experiments with different
pre-trained models on medical classification and segmentation tasks. We find
such PEFT method can not only efficiently adapt the pre-trained models to the
medical domain, but also brings data efficiency with partial labeled data. For
example, with 0.5\% extra trainable parameters, our method not only outperforms
state-of-the-art PEFT methods, even surpasses the full fine-tuning by more than
2.20\% Kappa score on medical classification task. It can saves up to 60\%
labeled data and 99\% storage cost of ViT-B/16.
- Abstract(参考訳): 制限されたラベル付きデータは、医療領域でスクラッチからモデルをトレーニングすることが難しく、重要なパラダイムは事前トレーニングと微調整である。
訓練済みの大きなモデルは、下流の医療タスクに適応できる豊富な表現を含んでいる。
しかしながら、既存の手法では、事前訓練されたモデルのすべてのパラメータまたはタスク固有のレイヤーをチューニングし、医療画像の入力のバリエーションを無視する。
本研究では,医用画像解析のためのパラメータ効率細調整(PEFT)について検討し,動的視覚的プロンプトチューニング手法DVPTを提案する。
トレーニング可能なパラメータがいくつかある大きなモデルから、下流タスクに有益な知識を抽出することができる。
まず、凍結した特徴を軽量なボトルネック層で変換して、下流の医療タスクのドメイン固有の分布を学習し、次に動的クエリとしていくつかの学習可能な視覚的プロンプトを使用して、変換された特徴との相互注意を行い、各サンプルに適したサンプル固有の知識を取得しようとする。
最後に、機能はオリジナルの機能次元に投影され、凍結した機能で集約される。
このDVPTモジュールは、異なるTransformer層間で共有することができ、さらにトレーニング可能なパラメータを減らすことができる。
dvptを検証するために,医療分類および分節化タスクにおいて,さまざまな事前訓練モデルを用いた広範囲な実験を行った。
このようなPEFT法は、トレーニング済みのモデルを医療領域に効率的に適応させるだけでなく、部分ラベル付きデータによるデータ効率をもたらす。
例えば、0.5\%余分なトレーニング可能なパラメータでは、我々の手法は最先端のPEFT法よりも優れているだけでなく、医療分類タスクにおいて2.20\% Kappaスコアを超越している。
最大60\%のラベル付きデータと、ViT-B/16の99\%のストレージコストを節約できる。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Boosting Memory Efficiency in Transfer Learning for High-Resolution Medical Image Classification [1.5791081894226173]
FPT+(Fun-fine Prompt Tuning plus)は、高解像度の医用画像分類のために設計されたPETL法である。
FPT+は、軽量なサイドネットワークをトレーニングし、大規模な事前学習モデルから事前学習された知識にアクセスすることによって、転送学習を行う。
FPT+は, サイズ, モダリティ, 複雑さの異なる8つの医用画像データセットで評価した。
論文 参考訳(メタデータ) (2024-08-05T12:33:07Z) - Probing the Efficacy of Federated Parameter-Efficient Fine-Tuning of Vision Transformers for Medical Image Classification [16.070261684997362]
様々な下流タスクのための微調整事前訓練モデルは、医療画像領域において重要な問題である。
これらのモデルの大規模なサイズは、フェデレート学習における通信負担を軽減するために、パラメータ効率のよい微調整(PEFT)を使用する必要がある。
本研究では,医用画像分類のためのビジョントランスフォーマー(ViT)モデルに適用するための各種PEFT戦略について検討する。
論文 参考訳(メタデータ) (2024-07-16T10:28:50Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Embedded Prompt Tuning: Towards Enhanced Calibration of Pretrained Models for Medical Images [18.094731760514264]
医用画像分類タスクに基礎モデルを適用する際の微調整手法の有効性について検討する。
拡張チャネルにプロンプトトークンを埋め込む組込みプロンプトチューニング(EPT)手法を提案する。
EPTは、数ショットの医用画像分類タスクにおいて、いくつかの最先端の微調整方法よりも顕著に優れている。
論文 参考訳(メタデータ) (2024-07-01T06:35:53Z) - MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis [63.59184480010552]
ヴィジュアルトランスフォーマー(ViT)は、医療画像のコミュニティにとってずっと大きく、アクセスしにくくなっている。
MeLo(医療画像低ランク適応)は、リソース要求の微調整の代わりに低ランク適応を採用する。
提案手法は,4つの異なる医用画像データセット上で,完全に微調整されたVTモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-11-14T15:18:54Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Med-Tuning: A New Parameter-Efficient Tuning Framework for Medical Volumetric Segmentation [37.42382366505377]
我々は,医療用ボリュームセグメンテーションタスクのためのパラメータ効率チューニング(PET)を実現するために,Med-Tuningという新しいフレームワークを導入した。
本フレームワークは,自然画像上で事前学習したセグメンテーション作業における2次元ベースラインの精度を向上させる。
完全なFTと比較して、Med-Tuningは細調整されたモデルのパラメータを最大4倍に減らし、セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2023-04-21T10:47:13Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。