論文の概要: Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval
- arxiv url: http://arxiv.org/abs/2409.09430v2
- Date: Wed, 26 Mar 2025 19:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.20007
- Title: Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval
- Title(参考訳): コンテンツに基づく医用画像検索のための特徴エクストラクタとしての事前学習型畳み込みニューラルネットワークと基礎モデルの評価
- Authors: Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia, Ramona Woitek,
- Abstract要約: コンテンツベースの医用画像検索(CBMIR)は、画像の特徴に依存し、自動または半自動で抽出できる。
本研究では、よく知られた学習済み畳み込みニューラルネットワーク(CNN)と事前学習済み基礎モデルから、事前学習済み特徴抽出器を複数使用した。
以上の結果から,2次元データセットでは,基礎モデルの方がCNNよりも優れた性能が得られることがわかった。
画像サイズが大きくなると(特に2次元データセットの場合)性能が若干向上する一方、より小さい画像でも競争力のあるCBMIR性能が達成できることを確認した。
- 参考スコア(独自算出の注目度): 0.37478492878307323
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical image retrieval refers to the task of finding similar images for given query images in a database, with applications such as diagnosis support. While traditional medical image retrieval relied on clinical metadata, content-based medical image retrieval (CBMIR) depends on image features, which can be extracted automatically or semi-automatically. Many approaches have been proposed for CBMIR, and among them, using pre-trained convolutional neural networks (CNNs) is a widely utilized approach. However, considering the recent advances in the development of foundation models for various computer vision tasks, their application for CBMIR can also be investigated. In this study, we used several pre-trained feature extractors from well-known pre-trained CNNs and pre-trained foundation models and investigated the CBMIR performance on eight types of two-dimensional (2D) and three-dimensional (3D) medical images. Furthermore, we investigated the effect of image size on the CBMIR performance. Our results show that, overall, for the 2D datasets, foundation models deliver superior performance by a large margin compared to CNNs, with the general-purpose self-supervised model for computational pathology (UNI) providing the best overall performance across all datasets and image sizes. For 3D datasets, CNNs and foundation models deliver more competitive performance, with contrastive learning from captions for histopathology model (CONCH) achieving the best overall performance. Moreover, our findings confirm that while using larger image sizes (especially for 2D datasets) yields slightly better performance, competitive CBMIR performance can still be achieved even with smaller image sizes. Our codes to reproduce the results are available at: https://github.com/masih4/MedImageRetrieval.
- Abstract(参考訳): 医用画像検索とは、データベースで与えられたクエリ画像に類似した画像を見つけるタスクのことであり、診断支援などの応用がある。
従来の医用画像検索は臨床メタデータに頼っていたが、コンテンツベースの医用画像検索(CBMIR)は画像の特徴に依存しており、自動または半自動で抽出できる。
CBMIRには多くのアプローチが提案されており、その中でも、事前訓練された畳み込みニューラルネットワーク(CNN)が広く利用されている。
しかし、様々なコンピュータビジョンタスクの基礎モデルの開発が最近進んでいることを考えると、CBMIRへの応用も検討できる。
本研究では,よく知られたCNNと事前学習基礎モデルの事前学習特徴抽出器を用いて,8種類の2次元(2D)と3次元(3D)の医用画像に対して,CBMIRの性能について検討した。
さらに,画像サイズがCBMIR性能に及ぼす影響について検討した。
以上の結果から, 基礎モデルではCNNに比べて性能が優れており, 計算病理学(UNI)の汎用自己教師モデルにより, 全データセットと画像サイズで最高の総合的性能が得られることがわかった。
3Dデータセットでは、CNNとファンデーションモデルはより競争力のあるパフォーマンスを提供する。
さらに, 画像サイズが大きい場合(特に2次元データセットの場合) の性能は若干向上するが, 画像サイズが小さい場合でも競合性のあるCBMIR性能が達成可能であることを確認した。
結果を再現するコードについては、https://github.com/masih4/MedImageRetrieval.comで公開しています。
関連論文リスト
- Machine-learning for photoplethysmography analysis: Benchmarking feature, image, and signal-based approaches [1.1011387049911827]
光胸腺撮影は、様々な臨床応用に適した、広く用いられている非侵襲的な生理学的センシング技術である。
機械学習手法は、機械学習手法によってますます支持され、最も適切な入力表現とモデル選択の疑問が提起される。
本稿では,3種類の入力表現,解釈可能な特徴,画像表現,生波形を網羅した総合的なベンチマーク研究により,このギャップに対処する。
論文 参考訳(メタデータ) (2025-02-27T10:17:16Z) - Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging [3.7942449131350413]
3次元MRIの視覚基礎モデルであるTriadを提案する。
Triadは131,170個のMRIボリュームから堅牢な表現を学ぶために広く使われているオートエンコーダアーキテクチャを採用している。
臓器・腫瘍区分,臓器・癌分類,医用画像登録という3つの課題にまたがってTriadを評価した。
論文 参考訳(メタデータ) (2025-02-19T19:31:52Z) - Embeddings are all you need! Achieving High Performance Medical Image Classification through Training-Free Embedding Analysis [0.0]
医療画像のための人工知能(AI)と機械学習(ML)モデルの開発は通常、大規模なデータセットに対する広範なトレーニングとテストを含む。
従来の訓練手順を埋め込み型アプローチで置き換える可能性について検討した。
論文 参考訳(メタデータ) (2024-12-12T16:59:37Z) - Deep Convolutional Neural Networks on Multiclass Classification of Three-Dimensional Brain Images for Parkinson's Disease Stage Prediction [2.931680194227131]
パーキンソン病の病期を正確に予測できるモデルを開発した。
我々は3次元脳画像全体を入力として使用した。
予測過程において,異なるスライスの重要性を考慮に入れた注意機構を組み込んだ。
論文 参考訳(メタデータ) (2024-10-31T05:40:08Z) - Disease Classification and Impact of Pretrained Deep Convolution Neural Networks on Diverse Medical Imaging Datasets across Imaging Modalities [0.0]
本稿では,種々の医用画像データセット間での伝達学習を伴う,事前訓練された深部畳み込みニューラルネットワークの使用の複雑さについて検討する。
固定特徴抽出器として事前訓練されたモデルを使用することで,データセットに関係なく性能が低下することを示す。
また、より深く複雑なアーキテクチャが必ずしも最高のパフォーマンスをもたらすとは限らないことも判明した。
論文 参考訳(メタデータ) (2024-08-30T04:51:19Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Boosting Medical Image Segmentation Performance with Adaptive Convolution Layer [6.887244952811574]
UCTransNetのような先進的なディープラーニングモデルに先立つ適応層を提案する。
我々のアプローチは、多様な解剖学的構造と微妙な画像の詳細を扱うネットワークの能力を高める。
従来のCNNよりも、同じ数のパラメータで固定されたカーネルサイズで一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-04-17T13:18:39Z) - Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and
DINOv2 in Medical Imaging Classification [7.205610366609243]
本稿では,脳MRIデータの3つの臨床的モダリティを用いたグリオーマグレーディングタスクを行った。
我々は、ImageNetやDINOv2をベースとした様々な事前学習深層学習モデルの性能を比較した。
臨床データでは,DINOv2 はImageNet ベースで事前訓練したモデルほど優れていなかった。
論文 参考訳(メタデータ) (2024-02-12T11:49:08Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Enhanced Transfer Learning Through Medical Imaging and Patient
Demographic Data Fusion [0.0]
画像特徴と関連する非画像データとを組み合わせた医療画像データの分類における性能向上について検討した。
特徴抽出器として直接使用し,対象領域に微調整を施したImageNetで事前訓練したネットワークを用いた転送学習を利用する。
論文 参考訳(メタデータ) (2021-11-29T09:11:52Z) - Colorectal Polyp Classification from White-light Colonoscopy Images via
Domain Alignment [57.419727894848485]
大腸内視鏡画像からの正確な診断を支援するためには,コンピュータ支援診断システムが必要である。
これまでのほとんどの研究では、Narrow-Band Imaging (NBI) や他の拡張画像を用いて、ポリプの分化モデルの開発を試みている。
正確な大腸ポリープ分類のための教師/学生アーキテクチャに基づく新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-08-05T09:31:46Z) - Two layer Ensemble of Deep Learning Models for Medical Image
Segmentation [0.2699900017799093]
医用画像のセグメンテーションのための深層学習モデルの2層アンサンブルを提案する。
トレーニング画像の付加データとして、第1層の各モデルによって作成された各トレーニング画像画素の予測を用いる。
次に、各モデルが結合結果に異なる貢献をする重みに基づくスキームを用いて、第2層の予測を組み合わせる。
論文 参考訳(メタデータ) (2021-04-10T16:52:34Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。