論文の概要: TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis
- arxiv url: http://arxiv.org/abs/2603.00433v1
- Date: Sat, 28 Feb 2026 03:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.190108
- Title: TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis
- Title(参考訳): TAP-SLF:マルチタスク超音波画像解析のためのビジョン基礎モデルのパラメータ効率の良い適応
- Authors: Hui Wan, Libin Lan,
- Abstract要約: Task-Aware Prompting and Selective Layer Fine-Tuning (TAP-SLF) はマルチタスク超音波画像解析のための統合フレームワークである。
TAP-SLFは、タスク固有の先行情報を入力トークンシーケンスに組み込み、LoRAをエンコーダの選択した特定のトップ層に適用する。
The FMC_UIA 2026 Challenge test set, with the evaluations on the officially released training dataset using a 8:2 train-test split, show that task-aware prompting and selective layer tuning is effective strategy for efficient VFM adapt。
- 参考スコア(独自算出の注目度): 1.5074458114135958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Executing multiple tasks simultaneously in medical image analysis, including segmentation, classification, detection, and regression, often introduces significant challenges regarding model generalizability and the optimization of shared feature representations. While Vision Foundation Models (VFMs) provide powerful general representations, full fine-tuning on limited medical data is prone to overfitting and incurs high computational costs. Moreover, existing parameter-efficient fine-tuning approaches typically adopt task-agnostic adaptation protocols, overlooking both task-specific mechanisms and the varying sensitivity of model layers during fine-tuning. In this work, we propose Task-Aware Prompting and Selective Layer Fine-Tuning (TAP-SLF), a unified framework for multi-task ultrasound image analysis. TAP-SLF incorporates task-aware soft prompts to encode task-specific priors into the input token sequence and applies LoRA to selected specific top layers of the encoder. This strategy updates only a small fraction of the VFM parameters while keeping the pre-trained backbone frozen. By combining task-aware prompts with selective high-layer fine-tuning, TAP-SLF enables efficient VFM adaptation to diverse medical tasks within a shared backbone. Results on the FMC_UIA 2026 Challenge test set, where TAP-SLF wins fifth place, combined with evaluations on the officially released training dataset using an 8:2 train-test split, demonstrate that task-aware prompting and selective layer tuning are effective strategies for efficient VFM adaptation.
- Abstract(参考訳): セグメンテーション、分類、検出、回帰などの医療画像解析において同時に複数のタスクを実行することは、モデル一般化可能性や共有特徴表現の最適化に関する重要な課題をしばしば引き起こす。
ビジョンファウンデーションモデル(VFM)は強力な汎用表現を提供するが、限られた医療データに対する完全な微調整は、過度に適合し、高い計算コストを発生させる傾向がある。
さらに、既存のパラメータ効率の良い微調整アプローチでは、タスク固有のメカニズムと微調整中のモデル層の感度の変化の両方を見越して、タスクに依存しない適応プロトコルを採用するのが一般的である。
本研究では,マルチタスク超音波画像解析のための統合フレームワークTAP-SLF(Task-Aware Prompting and Selective Layer Fine-Tuning)を提案する。
TAP-SLFはタスク対応ソフトプロンプトを組み込み、タスク固有の先行情報を入力トークンシーケンスにエンコードし、LoRAをエンコーダの特定のトップ層に適用する。
この戦略は、トレーニング済みのバックボーンを凍結させながら、VFMパラメータのごく一部だけを更新する。
タスク認識プロンプトと選択的高層微調整を組み合わせることで、TAP-SLFは共有バックボーン内の様々な医療タスクへの効率的なVFM適応を可能にする。
The FMC_UIA 2026 Challenge test set, where TAP-SLF wins five places, with the evaluations on the officially released training dataset using a 8:2 train-test split, showed that task-aware prompting and selective layer tuning is effective strategy for efficient VFM adapt。
関連論文リスト
- Baseline Method of the Foundation Model Challenge for Ultrasound Image Analysis [15.017057362402687]
超音波画像解析のための基礎モデルチャレンジ(FM_UIA2026)を提案する。
このモデルは、ImageNet-pretrained EfficientNet--B4のバックボーンを堅牢な特徴抽出に使用し、FPN(Feature Pyramid Network)と組み合わせてコンテキスト情報をキャプチャする。
タスク固有のルーティング戦略により、グローバルタスクは高レベルなセマンティックな特徴を活用でき、高密度な予測タスクは空間的詳細なFPN表現を活用できる。
論文 参考訳(メタデータ) (2026-02-01T06:52:11Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Group Relative Augmentation for Data Efficient Action Detection [11.169883977958454]
アクション検出にVLM(Big Video-Language Models)を適応させるには、いくつかの例が課題となっている。
パラメータ係数チューニング(LoRA)と新たな学習可能な内部特徴拡張を組み合わせた効率的な適応戦略を提案する。
複雑なマルチラベル・マルチパーソン動作検出データセットに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2025-07-28T21:46:05Z) - Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis [8.076987502347327]
病理基盤モデル(PFM)は、スライド画像全体(WSI)を解析するための強力なツールとして登場した。
TAPFMは、特徴表現と注目重みの両方を最適化しながら、MILアグリゲーションに視覚変換器(ヴィット)アテンションを使用する。
膀胱癌および肺腺癌に対する突然変異予測タスクの評価。
論文 参考訳(メタデータ) (2025-06-05T15:56:45Z) - Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation [24.531539125814877]
Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-04T11:59:26Z) - Repurposing Foundation Model for Generalizable Medical Time Series Classification [16.21546283978257]
FORMEDは、バックボーン基盤モデルを再利用して、目に見えないデータセット上で高度に一般化可能なMedTS分類を可能にするフレームワークである。
我々は,5種類のMedTSデータセットを用いて,11のタスク特化モデル (TSM) と4のタスク特化適応 (TSA) 手法のベンチマークを行った。
以上の結果から,F1スコア(ADFTDデータセット上で)を最大35%向上させることができた。
論文 参考訳(メタデータ) (2024-10-03T23:50:04Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。