論文の概要: A Large-scale Medical Visual Task Adaptation Benchmark
- arxiv url: http://arxiv.org/abs/2404.12876v1
- Date: Fri, 19 Apr 2024 13:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:57:17.388590
- Title: A Large-scale Medical Visual Task Adaptation Benchmark
- Title(参考訳): 大規模医用ビジュアルタスク適応ベンチマーク
- Authors: Shentong Mo, Xufang Luo, Yansen Wang, Dongsheng Li,
- Abstract要約: 医用画像1,68万枚からなる大規模医用視覚タスク適応ベンチマークであるMed-VTABについて紹介する。
Med-VTABの結果は、医療タスク適応において、1つの事前訓練されたモデルが不足していることを示している。
本稿では,GMoE-Adapterについて紹介する。
- 参考スコア(独自算出の注目度): 33.72665778664343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual task adaptation has been demonstrated to be effective in adapting pre-trained Vision Transformers (ViTs) to general downstream visual tasks using specialized learnable layers or tokens. However, there is yet a large-scale benchmark to fully explore the effect of visual task adaptation on the realistic and important medical domain, particularly across diverse medical visual modalities, such as color images, X-ray, and CT. To close this gap, we present Med-VTAB, a large-scale Medical Visual Task Adaptation Benchmark consisting of 1.68 million medical images for diverse organs, modalities, and adaptation approaches. Based on Med-VTAB, we explore the scaling law of medical prompt tuning concerning tunable parameters and the generalizability of medical visual adaptation using non-medical/medical pre-train weights. Besides, we study the impact of patient ID out-of-distribution on medical visual adaptation, which is a real and challenging scenario. Furthermore, results from Med-VTAB indicate that a single pre-trained model falls short in medical task adaptation. Therefore, we introduce GMoE-Adapter, a novel method that combines medical and general pre-training weights through a gated mixture-of-experts adapter, achieving state-of-the-art results in medical visual task adaptation.
- Abstract(参考訳): 視覚タスク適応は、学習可能な特別なレイヤやトークンを使用して、トレーニング済みの視覚変換器(ViT)を一般的な下流視覚タスクに適応させるのに有効であることが示されている。
しかし、現実的で重要な医療領域、特にカラー画像、X線、CTなどの様々な医学的な視覚的モダリティに対する視覚的タスク適応の効果を十分に調査する大規模なベンチマークがある。
このギャップを埋めるために、我々はMed-VTAB(Med-VTAB)という、多様な臓器、モダリティ、適応アプローチのための168万の医療画像からなる大規模医用視覚タスク適応ベンチマークを提示する。
Med-VTABをベースとして、調整可能なパラメータに関する医用プロンプトチューニングのスケーリング法と、非医療用/医療用プレトレインウェイトを用いた医用視覚適応の一般化について検討する。
また,患者IDアウトオブディストリビューションが医用視覚適応に与える影響についても検討した。
さらに,Med-VTABの結果から,1つの事前訓練モデルが医療タスク適応において不足していることが示唆された。
そこで本稿では,GMoE-Adapterについて紹介する。GMoE-Adapterは,医療用および一般用プレトレーニング用ウェイトを,ゲートドミキシング・オブ・エキスパート・アダプタを介して組み合わせ,医療用視覚タスク適応における最先端の成果を達成するための新しい手法である。
関連論文リスト
- MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - EAFP-Med: An Efficient Adaptive Feature Processing Module Based on
Prompts for Medical Image Detection [27.783012550610387]
領域間適応型医用画像検出は、様々な医用画像技術における病変表現の違いにより困難である。
医用画像検出のためのプロンプトに基づく効率的な適応的特徴処理モジュールであるEAFP-Medを提案する。
EAFP-Medは、プロンプトに基づいて様々な医用画像から病変の特徴を効率的に抽出し、モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-11-27T05:10:15Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。