論文の概要: MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks
- arxiv url: http://arxiv.org/abs/2405.07411v1
- Date: Mon, 13 May 2024 01:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:04:30.338811
- Title: MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks
- Title(参考訳): MoVL:医療画像における事前訓練モデルのドメイン適応的利用のための融合戦略の探索
- Authors: Haijiang Tian, Jingkun Yue, Xiaohong Liu, Guoxing Yang, Zeyu Jiang, Guangyu Wang,
- Abstract要約: 本稿では,入力医療画像と自然事前学習型視覚モデルとのギャップを埋めるために視覚刺激(VP)を導入する。
本稿では,分類損失と差分損失を含む共同学習損失関数を設計し,インパルス画像とプレーン画像のばらつきを記述した。
分布医学データセットの内訳では,本手法(90.33%)はFF(85.15%)を5.18%リードで上回りうる。
- 参考スコア(独自算出の注目度): 6.8948885302235325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical images are often more difficult to acquire than natural images due to the specialism of the equipment and technology, which leads to less medical image datasets. So it is hard to train a strong pretrained medical vision model. How to make the best of natural pretrained vision model and adapt in medical domain still pends. For image classification, a popular method is linear probe (LP). However, LP only considers the output after feature extraction. Yet, there exists a gap between input medical images and natural pretrained vision model. We introduce visual prompting (VP) to fill in the gap, and analyze the strategies of coupling between LP and VP. We design a joint learning loss function containing categorisation loss and discrepancy loss, which describe the variance of prompted and plain images, naming this joint training strategy MoVL (Mixture of Visual Prompting and Linear Probe). We experiment on 4 medical image classification datasets, with two mainstream architectures, ResNet and CLIP. Results shows that without changing the parameters and architecture of backbone model and with less parameters, there is potential for MoVL to achieve full finetune (FF) accuracy (on four medical datasets, average 90.91% for MoVL and 91.13% for FF). On out of distribution medical dataset, our method(90.33%) can outperform FF (85.15%) with absolute 5.18 % lead.
- Abstract(参考訳): 医療画像は、機器や技術の特殊性のため、自然画像よりも取得が難しい場合が多く、医療画像のデータセットが少なくなる。
したがって、強い事前訓練された医療ビジョンモデルを訓練することは困難である。
自然に訓練済みの視覚モデルを最大限に活用し、医療領域に適応する方法は、今でも変わりません。
画像分類ではリニアプローブ (Line probe, LP) が一般的である。
しかし、LPは特徴抽出後の出力のみを考慮する。
しかし、入力医療画像と自然予知視覚モデルの間にはギャップがある。
ギャップを埋めるために視覚的プロンプト(VP)を導入し、LPとVPの結合戦略を分析する。
我々は,この連立学習戦略MoVL (Mixture of Visual Prompting and Linear Probe) を命名し,連立学習損失と連立学習損失を含む連立学習損失関数を設計した。
本研究では、ResNetとCLIPの2つの主流アーキテクチャを用いて、4つの医用画像分類データセットを実験した。
その結果、バックボーンモデルのパラメータやアーキテクチャを変更することなく、より少ないパラメータでは、完全な微細な(FF)精度を達成する可能性がある(4つの医学データセットでは、平均90.91%がMoVL、91.13%がFF)。
分布医学データセットの内訳では, FF (85.15%) を5.18 %リードで上回り, FF (85.15%) を上回った。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction [4.659998272408215]
肺塞栓症(PE)の早期発見は、患者の生存率を高めるために重要である。
PE-MVCNetとよばれる多モード核融合法を提案する。
提案モデルは既存の手法より優れており, 単一のデータモダリティを用いたモデルと比較して, マルチモーダル融合モデルの方が優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2024-02-27T03:53:27Z) - Plug-and-Play Feature Generation for Few-Shot Medical Image
Classification [23.969183389866686]
限られた訓練データを用いた医用画像分類におけるモデル一般化と実用性の向上に大きな可能性を秘めている。
MedMFGは,限られたサンプルから十分なクラス識別機能を生成するために設計された,フレキシブルで軽量なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2023-10-14T02:36:14Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - About Explicit Variance Minimization: Training Neural Networks for
Medical Imaging With Limited Data Annotations [2.3204178451683264]
VAT(Variance Aware Training)法は、モデル損失関数に分散誤差を導入することにより、この特性を利用する。
多様な領域から得られた3つの医用画像データセットと様々な学習目標に対するVATの有効性を検証した。
論文 参考訳(メタデータ) (2021-05-28T21:34:04Z) - Background Splitting: Finding Rare Classes in a Sea of Background [55.03789745276442]
我々は,少数の稀なカテゴリの画像分類のための,高精度な深層モデルの訓練という現実的な問題に焦点をあてる。
これらのシナリオでは、ほとんどの画像はデータセットの背景カテゴリに属します(データセットの95%は背景です)。
非バランスなデータセットをトレーニングするための標準的な微調整アプローチと最先端アプローチの両方が、この極端な不均衡の存在下で正確な深層モデルを生成していないことを実証する。
論文 参考訳(メタデータ) (2020-08-28T23:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。