論文の概要: Are Natural Domain Foundation Models Useful for Medical Image
Classification?
- arxiv url: http://arxiv.org/abs/2310.19522v1
- Date: Mon, 30 Oct 2023 13:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:22:21.442794
- Title: Are Natural Domain Foundation Models Useful for Medical Image
Classification?
- Title(参考訳): 自然ドメイン基盤モデルは医用画像分類に有用か?
- Authors: Joana Pal\'es Huix and Adithya Raju Ganeshan and Johan Fredin Haslum
and Magnus S\"oderberg and Christos Matsoukas and Kevin Smith
- Abstract要約: 確立された4つの医用画像データセットを対象とした5つの基礎モデルの性能評価を行った。
DINOv2は、ImageNet事前トレーニングの標準プラクティスを一貫して上回っている。
他の基盤モデルは、医療画像分類タスクへの転送可能性の限界を示す、この確立されたベースラインを一貫して打ち負かさなかった。
- 参考スコア(独自算出の注目度): 2.7652948339147807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deep learning field is converging towards the use of general foundation
models that can be easily adapted for diverse tasks. While this paradigm shift
has become common practice within the field of natural language processing,
progress has been slower in computer vision. In this paper we attempt to
address this issue by investigating the transferability of various
state-of-the-art foundation models to medical image classification tasks.
Specifically, we evaluate the performance of five foundation models, namely
SAM, SEEM, DINOv2, BLIP, and OpenCLIP across four well-established medical
imaging datasets. We explore different training settings to fully harness the
potential of these models. Our study shows mixed results. DINOv2 in particular,
consistently outperforms the standard practice of ImageNet pretraining.
However, other foundation models failed to consistently beat this established
baseline indicating limitations in their transferability to medical image
classification tasks.
- Abstract(参考訳): ディープラーニングの分野は、さまざまなタスクに容易に適応できる一般的な基礎モデルの利用に集約されている。
このパラダイムシフトは自然言語処理の分野で一般的に行われているが、コンピュータビジョンでは進歩が遅くなっている。
本稿では, 医用画像分類課題に対する各種基礎モデルの転送可能性について検討し, この問題に対処しようとする。
具体的には, SAM, SEEM, DINOv2, BLIP, OpenCLIPの5つの基礎モデルの性能評価を行った。
これらのモデルの可能性を完全に活用するために、さまざまなトレーニング設定を検討します。
我々の研究は様々な結果を示している。
特にDINOv2は、ImageNet事前トレーニングの標準プラクティスを一貫して上回っている。
しかし、他の基盤モデルは、医療画像分類タスクへの転送可能性の限界を示すこの確立されたベースラインを一貫して打ち負かさなかった。
関連論文リスト
- Few-shot Adaptation of Medical Vision-Language Models [17.11090825001394]
本稿では,医療ビジョン言語モデル(VLM)を厳格な数ショット方式で適用するための最初の構造化ベンチマークを紹介する。
視覚プロトタイプとテキスト埋め込みの最適なブレンディングを求める線形プローブ適応ベースラインの簡易な一般化を評価する。
驚くべきことに、このようなテキストインフォームド線形プローブは、複雑なプロンプトラーニングやアダプタベースの戦略と比較して、競合する性能が得られる。
論文 参考訳(メタデータ) (2024-09-05T19:10:29Z) - Disease Classification and Impact of Pretrained Deep Convolution Neural Networks on Diverse Medical Imaging Datasets across Imaging Modalities [0.0]
本稿では,種々の医用画像データセット間での伝達学習を伴う,事前訓練された深部畳み込みニューラルネットワークの使用の複雑さについて検討する。
固定特徴抽出器として事前訓練されたモデルを使用することで,データセットに関係なく性能が低下することを示す。
また、より深く複雑なアーキテクチャが必ずしも最高のパフォーマンスをもたらすとは限らないことも判明した。
論文 参考訳(メタデータ) (2024-08-30T04:51:19Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Empirical Analysis of a Segmentation Foundation Model in Prostate
Imaging [9.99042549094606]
医療画像セグメンテーションのための基盤モデルUniverSegについて考察する。
本研究では,前立腺画像の文脈における経験的評価研究を行い,従来のタスク固有セグメンテーションモデルの訓練手法と比較する。
論文 参考訳(メタデータ) (2023-07-06T20:00:52Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。