Fugu-MT 論文翻訳(概要): DVPT: Dynamic Visual Prompt Tuning of Large Pre-trained Models for Medical Image Analysis

論文の概要: DVPT: Dynamic Visual Prompt Tuning of Large Pre-trained Models for Medical Image Analysis

arxiv url: http://arxiv.org/abs/2307.09787v1
Date: Wed, 19 Jul 2023 07:11:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 15:05:32.986243
Title: DVPT: Dynamic Visual Prompt Tuning of Large Pre-trained Models for Medical Image Analysis
Title（参考訳）: DVPT:医療画像解析のための大規模訓練済みモデルの動的視覚プロンプトチューニング
Authors: Along He, Kai Wang, Zhihong Wang, Tao Li, and Huazhu Fu
Abstract要約: 医用画像解析のための動的視覚的プロンプトチューニング手法DVPTを提案する。トレーニング可能なパラメータがいくつかある大きなモデルから、下流タスクに有益な知識を抽出することができる。最大60%のラベル付きデータと、ViT-B/16の99%のストレージコストを節約できる。
参考スコア（独自算出の注目度）: 30.608225734194416
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Limited labeled data makes it hard to train models from scratch in medical domain, and an important paradigm is pre-training and then fine-tuning. Large pre-trained models contain rich representations, which can be adapted to downstream medical tasks. However, existing methods either tune all the parameters or the task-specific layers of the pre-trained models, ignoring the input variations of medical images, and thus they are not efficient or effective. In this work, we aim to study parameter-efficient fine-tuning (PEFT) for medical image analysis, and propose a dynamic visual prompt tuning method, named DVPT. It can extract knowledge beneficial to downstream tasks from large models with a few trainable parameters. Firstly, the frozen features are transformed by an lightweight bottleneck layer to learn the domain-specific distribution of downstream medical tasks, and then a few learnable visual prompts are used as dynamic queries and then conduct cross-attention with the transformed features, attempting to acquire sample-specific knowledge that are suitable for each sample. Finally, the features are projected to original feature dimension and aggregated with the frozen features. This DVPT module can be shared between different Transformer layers, further reducing the trainable parameters. To validate DVPT, we conduct extensive experiments with different pre-trained models on medical classification and segmentation tasks. We find such PEFT method can not only efficiently adapt the pre-trained models to the medical domain, but also brings data efficiency with partial labeled data. For example, with 0.5\% extra trainable parameters, our method not only outperforms state-of-the-art PEFT methods, even surpasses the full fine-tuning by more than 2.20\% Kappa score on medical classification task. It can saves up to 60\% labeled data and 99\% storage cost of ViT-B/16.
Abstract（参考訳）: 制限されたラベル付きデータは、医療領域でスクラッチからモデルをトレーニングすることが難しく、重要なパラダイムは事前トレーニングと微調整である。訓練済みの大きなモデルは、下流の医療タスクに適応できる豊富な表現を含んでいる。しかしながら、既存の手法では、事前訓練されたモデルのすべてのパラメータまたはタスク固有のレイヤーをチューニングし、医療画像の入力のバリエーションを無視する。本研究では,医用画像解析のためのパラメータ効率細調整(PEFT)について検討し,動的視覚的プロンプトチューニング手法DVPTを提案する。トレーニング可能なパラメータがいくつかある大きなモデルから、下流タスクに有益な知識を抽出することができる。まず、凍結した特徴を軽量なボトルネック層で変換して、下流の医療タスクのドメイン固有の分布を学習し、次に動的クエリとしていくつかの学習可能な視覚的プロンプトを使用して、変換された特徴との相互注意を行い、各サンプルに適したサンプル固有の知識を取得しようとする。最後に、機能はオリジナルの機能次元に投影され、凍結した機能で集約される。このDVPTモジュールは、異なるTransformer層間で共有することができ、さらにトレーニング可能なパラメータを減らすことができる。 dvptを検証するために,医療分類および分節化タスクにおいて,さまざまな事前訓練モデルを用いた広範囲な実験を行った。このようなPEFT法は、トレーニング済みのモデルを医療領域に効率的に適応させるだけでなく、部分ラベル付きデータによるデータ効率をもたらす。例えば、0.5\%余分なトレーニング可能なパラメータでは、我々の手法は最先端のPEFT法よりも優れているだけでなく、医療分類タスクにおいて2.20\% Kappaスコアを超越している。最大60\%のラベル付きデータと、ViT-B/16の99\%のストレージコストを節約できる。

関連論文リスト

Task-Specific Knowledge Distillation from the Vision Foundation Model for Enhanced Medical Image Segmentation [13.018234326432964]
医用画像セグメンテーションのための新規で汎用的なタスク固有知識蒸留フレームワークを提案する。提案手法は,目標セグメンテーションタスクのVFMを微調整し,より小さなモデルに知識を蒸留する前にタスク固有の特徴を抽出する。 5つの医用画像データセットに対する実験結果から,本手法はタスク非依存の知識蒸留より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-10T06:39:53Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
FPT+: A Parameter and Memory Efficient Transfer Learning Method for High-resolution Medical Image Classification [1.5791081894226173]
FPT+(Fun-fine Prompt Tuning plus)は、高解像度の医用画像分類のために設計されたPETL法である。 FPT+は、軽量なサイドネットワークをトレーニングし、大規模な事前学習モデルから事前学習された知識にアクセスすることによって、転送学習を行う。実験の結果、FPT+は他のPETL法よりも優れており、学習可能なパラメータの1.03%とViT-Bモデル全体を微調整するために必要なメモリの3.18%しか使用していない。
論文参考訳（メタデータ） (2024-08-05T12:33:07Z)
Probing the Efficacy of Federated Parameter-Efficient Fine-Tuning of Vision Transformers for Medical Image Classification [16.070261684997362]
様々な下流タスクのための微調整事前訓練モデルは、医療画像領域において重要な問題である。これらのモデルの大規模なサイズは、フェデレート学習における通信負担を軽減するために、パラメータ効率のよい微調整(PEFT)を使用する必要がある。本研究では,医用画像分類のためのビジョントランスフォーマー(ViT)モデルに適用するための各種PEFT戦略について検討する。
論文参考訳（メタデータ） (2024-07-16T10:28:50Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
Embedded Prompt Tuning: Towards Enhanced Calibration of Pretrained Models for Medical Images [18.094731760514264]
医用画像分類タスクに基礎モデルを適用する際の微調整手法の有効性について検討する。拡張チャネルにプロンプトトークンを埋め込む組込みプロンプトチューニング(EPT)手法を提案する。 EPTは、数ショットの医用画像分類タスクにおいて、いくつかの最先端の微調整方法よりも顕著に優れている。
論文参考訳（メタデータ） (2024-07-01T06:35:53Z)
MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis [63.59184480010552]
ヴィジュアルトランスフォーマー(ViT)は、医療画像のコミュニティにとってずっと大きく、アクセスしにくくなっている。 MeLo(医療画像低ランク適応)は、リソース要求の微調整の代わりに低ランク適応を採用する。提案手法は,4つの異なる医用画像データセット上で,完全に微調整されたVTモデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2023-11-14T15:18:54Z)
Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。 PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文参考訳（メタデータ） (2023-10-18T02:42:17Z)
Med-Tuning: A New Parameter-Efficient Tuning Framework for Medical Volumetric Segmentation [37.42382366505377]
我々は,医療用ボリュームセグメンテーションタスクのためのパラメータ効率チューニング(PET)を実現するために,Med-Tuningという新しいフレームワークを導入した。本フレームワークは,自然画像上で事前学習したセグメンテーション作業における2次元ベースラインの精度を向上させる。完全なFTと比較して、Med-Tuningは細調整されたモデルのパラメータを最大4倍に減らし、セグメンテーション性能も向上した。
論文参考訳（メタデータ） (2023-04-21T10:47:13Z)
Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文参考訳（メタデータ） (2023-04-04T16:14:39Z)
Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文参考訳（メタデータ） (2022-11-16T21:55:05Z)
Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。 VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文参考訳（メタデータ） (2022-03-23T01:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。