論文の概要: Performance Evaluation of Deep Learning and Transformer Models Using Multimodal Data for Breast Cancer Classification
- arxiv url: http://arxiv.org/abs/2410.10146v1
- Date: Mon, 14 Oct 2024 04:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:44:27.924055
- Title: Performance Evaluation of Deep Learning and Transformer Models Using Multimodal Data for Breast Cancer Classification
- Title(参考訳): 乳がん分類のためのマルチモーダルデータを用いた深層学習モデルと変圧器モデルの性能評価
- Authors: Sadam Hussain, Mansoor Ali, Usman Naseem, Beatriz Alejandra Bosques Palomo, Mario Alexis Monsivais Molina, Jorge Alberto Garza Abdala, Daly Betzabeth Avendano Avalos, Servando Cardona-Huerta, T. Aaron Gulliver, Jose Gerardo Tamez Pena,
- Abstract要約: 乳がんの発生率と死亡率の上昇は、女性にとって大きな国際的懸念である。
深層学習(DL)は,BC分類において,ヒトの専門読者と比較して優れた診断性能を示した。
本研究では,BC分類のための多モードDLアーキテクチャを提案し,画像(マンモグラム,4ビュー)とテキストデータ(放射線学的レポート)を新しい社内データセットから利用した。
- 参考スコア(独自算出の注目度): 7.405837346783951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rising breast cancer (BC) occurrence and mortality are major global concerns for women. Deep learning (DL) has demonstrated superior diagnostic performance in BC classification compared to human expert readers. However, the predominant use of unimodal (digital mammography) features may limit the current performance of diagnostic models. To address this, we collected a novel multimodal dataset comprising both imaging and textual data. This study proposes a multimodal DL architecture for BC classification, utilising images (mammograms; four views) and textual data (radiological reports) from our new in-house dataset. Various augmentation techniques were applied to enhance the training data size for both imaging and textual data. We explored the performance of eleven SOTA DL architectures (VGG16, VGG19, ResNet34, ResNet50, MobileNet-v3, EffNet-b0, EffNet-b1, EffNet-b2, EffNet-b3, EffNet-b7, and Vision Transformer (ViT)) as imaging feature extractors. For textual feature extraction, we utilised either artificial neural networks (ANNs) or long short-term memory (LSTM) networks. The combined imaging and textual features were then inputted into an ANN classifier for BC classification, using the late fusion technique. We evaluated different feature extractor and classifier arrangements. The VGG19 and ANN combinations achieved the highest accuracy of 0.951. For precision, the VGG19 and ANN combination again surpassed other CNN and LSTM, ANN based architectures by achieving a score of 0.95. The best sensitivity score of 0.903 was achieved by the VGG16+LSTM. The highest F1 score of 0.931 was achieved by VGG19+LSTM. Only the VGG16+LSTM achieved the best area under the curve (AUC) of 0.937, with VGG16+LSTM closely following with a 0.929 AUC score.
- Abstract(参考訳): 乳がんの発生率と死亡率の上昇は、女性にとって大きな国際的懸念である。
深層学習(DL)は,BC分類において,ヒトの専門読者と比較して優れた診断性能を示した。
しかし, デジタルマンモグラフィー(unimodal, デジタルマンモグラフィー)の特徴は, 診断モデルの性能を低下させる可能性がある。
そこで我々は,画像データとテキストデータの両方からなる新しいマルチモーダルデータセットを収集した。
本研究では,BC分類のための多モードDLアーキテクチャを提案し,画像(マンモグラム,4ビュー)とテキストデータ(放射線学的レポート)を新しい社内データセットから利用した。
画像データとテキストデータの両方のトレーニングデータサイズを向上させるために,様々な拡張手法を適用した。
我々は,11のSOTA DLアーキテクチャ (VGG16, VGG19, ResNet34, ResNet50, MobileNet-v3, EffNet-b0, EffNet-b1, EffNet-b2, EffNet-b3, EffNet-b7, Vision Transformer (ViT) を画像特徴抽出器として検討した。
テキストの特徴抽出には,ニューラルネットワーク(ANN)と長期記憶(LSTM)を併用した。
画像とテキストの組み合わせは、後期融合技術を用いて、BC分類のためのANN分類器に入力される。
特徴抽出器と分類器の配置について検討した。
VGG19とANNの組み合わせは0.951の精度を達成した。
VGG19とANNの組み合わせは、他のCNNとLSTM、ANNベースのアーキテクチャを再び上回り、スコアは0.95となった。
0.903の最高の感度スコアはVGG16+LSTMによって達成された。
0.931の最高スコアはVGG19+LSTMで達成された。
VGG16+LSTMのみが0.937の曲線の下で最高の面積を達成し、VGG16+LSTMは0.929のAUCスコアで密接に続いた。
関連論文リスト
- Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Brain Tumor Radiogenomic Classification [1.8276368987462532]
2次分類によるグリオ芽腫のMGMTバイオマーカー状態の予測を目的としたRSNA-MICCAI脳腫瘍ラジオゲノミクス分類の試み
データセットはトレーニングセット、トレーニング中に使用された検証セット、最終評価時にのみ使用されるテストの3つの主要なコホートに分割される。
論文 参考訳(メタデータ) (2024-01-11T10:30:09Z) - WATUNet: A Deep Neural Network for Segmentation of Volumetric Sweep
Imaging Ultrasound [1.2903292694072621]
ボリューム・スイープ・イメージング(VSI)は、訓練を受けていないオペレーターが高品質な超音波画像をキャプチャできる革新的な手法である。
本稿ではWavelet_Attention_UNet(WATUNet)と呼ばれる新しいセグメンテーションモデルを提案する。
このモデルでは、簡単な接続ではなく、ウェーブレットゲート(WG)とアテンションゲート(AG)をエンコーダとデコーダの間に組み込んで、上記の制限を克服する。
論文 参考訳(メタデータ) (2023-11-17T20:32:37Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Combination of multiple neural networks using transfer learning and
extensive geometric data augmentation for assessing cellularity scores in
histopathology images [0.0]
本研究では,スライド画像の癌細胞性を評価するための2つのDeep Learningアプローチの能力について検討する。
複数アーキテクチャを1つのネットワークに組み合わせた場合, トレーニングが拡張データに与える影響について検討した。
InceptionV3ネットワークと、浅いトランスファー学習CNNであるVGG16で構成されるアーキテクチャが並列アーキテクチャに統合された。
論文 参考訳(メタデータ) (2022-11-09T04:29:15Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - MARL: Multimodal Attentional Representation Learning for Disease
Prediction [0.0]
既存の学習モデルは、しばしばCTスキャン画像を利用して肺疾患を予測する。
これらのモデルは、肺のセグメンテーションと視覚特徴学習に影響を与える高い不確実性によって構成される。
MARL(Multimodal Attentional Representation Learning Model Architecture)を紹介する。
論文 参考訳(メタデータ) (2021-05-01T17:47:40Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。