論文の概要: Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors
- arxiv url: http://arxiv.org/abs/2502.05517v1
- Date: Sat, 08 Feb 2025 10:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:14.944838
- Title: Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors
- Title(参考訳): マルチモーダル画像分類のための視覚変換器の評価:脳・肺・腎腫瘍を事例として
- Authors: Óscar A. Martín, Javier Sánchez,
- Abstract要約: この研究は、いくつかのデータセットで、Swin TransformerやMaxViTを含むVision Transformersアーキテクチャのパフォーマンスを評価する。
脳、肺、腎臓の腫瘍で3つの画像のトレーニングセットを使用しました。
Swin Transformerは高い精度を提供し、腎臓腫瘍の分類で99.9%、組み合わせたデータセットで99.3%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Neural networks have become the standard technique for medical diagnostics, especially in cancer detection and classification. This work evaluates the performance of Vision Transformers architectures, including Swin Transformer and MaxViT, in several datasets of magnetic resonance imaging (MRI) and computed tomography (CT) scans. We used three training sets of images with brain, lung, and kidney tumors. Each dataset includes different classification labels, from brain gliomas and meningiomas to benign and malignant lung conditions and kidney anomalies such as cysts and cancers. This work aims to analyze the behavior of the neural networks in each dataset and the benefits of combining different image modalities and tumor classes. We designed several experiments by fine-tuning the models on combined and individual image modalities. The results revealed that the Swin Transformer provided high accuracy, achieving up to 99.9\% for kidney tumor classification and 99.3\% accuracy in a combined dataset. MaxViT also provided excellent results in individual datasets but performed poorly when data is combined. This research highlights the adaptability of Transformer-based models to various image modalities and features. However, challenges persist, including limited annotated data and interpretability issues. Future works will expand this study by incorporating other image modalities and enhancing diagnostic capabilities. Integrating these models across diverse datasets could mark a pivotal advance in precision medicine, paving the way for more efficient and comprehensive healthcare solutions.
- Abstract(参考訳): ニューラルネットワークは、特にがんの検出と分類において、医学診断の標準技術となっている。
この研究は、MRI(MRI)とCT(CT)スキャンのいくつかのデータセットにおいて、Swin TransformerやMaxViTを含むVision Transformersアーキテクチャの性能を評価する。
脳、肺、腎臓の腫瘍で3つの画像のトレーニングセットを使用しました。
それぞれのデータセットには、脳グリオーマや髄膜腫から良性および悪性の肺状態、嚢胞やがんなどの腎臓異常まで、さまざまな分類ラベルが含まれている。
この研究は、各データセットにおけるニューラルネットワークの挙動と、異なる画像モダリティと腫瘍クラスを組み合わせる利点を分析することを目的としている。
我々は,合成画像と個別画像のモダリティに基づいてモデルを微調整し,いくつかの実験を設計した。
その結果、Swin Transformerは高い精度を示し、腎臓腫瘍の分類では99.9\%、組み合わせたデータセットでは99.3\%の精度が得られた。
MaxViTはまた、個々のデータセットで優れた結果を提供するが、データが組み合わされた場合、パフォーマンスが良くない。
本研究は、トランスフォーマーモデルが様々な画像モダリティや特徴に適応可能であることを強調する。
しかし、注釈付きデータや解釈可能性の問題など、課題は続いている。
今後の研究は、他の画像モダリティを取り入れ、診断能力を増強することによって、この研究を拡大する予定である。
これらのモデルを多様なデータセットにまとめることで、より効率的で包括的な医療ソリューションの道を開くことができる。
関連論文リスト
- An Ensemble Approach for Brain Tumor Segmentation and Synthesis [0.12777007405746044]
磁気共鳴イメージング(MRI)における機械学習の統合は、信じられないほど効果的であることが証明されている。
ディープラーニングモデルは、複雑なデータの複雑な詳細をキャプチャするために、複数の処理層を利用する。
本稿では,最先端アーキテクチャを組み込んだディープラーニングフレームワークを提案し,精度の高いセグメンテーションを実現する。
論文 参考訳(メタデータ) (2024-11-26T17:28:51Z) - MGI: Multimodal Contrastive pre-training of Genomic and Medical Imaging [16.325123491357203]
本稿では,下流タスクにゲノムと医用画像を併用したマルチモーダル事前学習フレームワークを提案する。
我々は,マンバを遺伝子エンコーダとして,ビジョントランスフォーマー(ViT)を医用画像エンコーダとして組み合わせた,自己指導型コントラスト学習アプローチを用いて医用画像と遺伝子を調整した。
論文 参考訳(メタデータ) (2024-06-02T06:20:45Z) - Cross-Modal Domain Adaptation in Brain Disease Diagnosis: Maximum Mean Discrepancy-based Convolutional Neural Networks [0.0]
脳障害は世界の健康にとって大きな課題であり、毎年何百万人もの死者を出している。
これらの疾患の正確な診断は、MRIやCTのような高度な医療画像技術に大きく依存している。
注釈付きデータの不足は、診断のための機械学習モデルをデプロイする上で大きな課題となる。
論文 参考訳(メタデータ) (2024-05-06T07:44:46Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Automated ensemble method for pediatric brain tumor segmentation [0.0]
本研究では,ONet と UNet の修正版を用いた新しいアンサンブル手法を提案する。
データ拡張により、さまざまなスキャンプロトコル間の堅牢性と精度が保証される。
以上の結果から,この高度なアンサンブルアプローチは診断精度の向上に期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-14T15:29:32Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Deep Learning models for benign and malign Ocular Tumor Growth
Estimation [3.1558405181807574]
臨床医はしばしば、医用画像データに適した画像処理アルゴリズムを選択する際に問題に直面している。
ここでは、適切なモデルを選択するための戦略を示す。
論文 参考訳(メタデータ) (2021-07-09T05:40:25Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - SAG-GAN: Semi-Supervised Attention-Guided GANs for Data Augmentation on
Medical Images [47.35184075381965]
本稿では,GAN(Cycle-Consistency Generative Adversarial Networks)を用いた医用画像生成のためのデータ拡張手法を提案する。
提案モデルでは,正常画像から腫瘍画像を生成することができ,腫瘍画像から正常画像を生成することもできる。
本研究では,従来のデータ拡張手法と合成画像を用いた分類モデルを用いて,実画像を用いた分類モデルを訓練する。
論文 参考訳(メタデータ) (2020-11-15T14:01:24Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。