論文の概要: TransMed: Transformers Advance Multi-modal Medical Image Classification
- arxiv url: http://arxiv.org/abs/2103.05940v1
- Date: Wed, 10 Mar 2021 08:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:30:02.596606
- Title: TransMed: Transformers Advance Multi-modal Medical Image Classification
- Title(参考訳): TransMed:トランスフォーマーがマルチモーダル医療画像分類を進める
- Authors: Yin Dai and Yifan Gao
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、医療画像解析タスクで非常に競争力のあるパフォーマンスを示しています。
トランスフォーマーはコンピュータビジョンに適用され、大規模なデータセットで顕著な成功を収めた。
TransMedはCNNとトランスフォーマーの利点を組み合わせて、画像の低レベル特徴を効率的に抽出する。
- 参考スコア(独自算出の注目度): 4.500880052705654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, convolutional neural networks (CNN) have shown very
competitive performance in medical image analysis tasks, such as disease
classification, tumor segmentation, and lesion detection. CNN has great
advantages in extracting local features of images. However, due to the locality
of convolution operation, it can not deal with long-range relationships well.
Recently, transformers have been applied to computer vision and achieved
remarkable success in large-scale datasets. Compared with natural images,
multi-modal medical images have explicit and important long-range dependencies,
and effective multi-modal fusion strategies can greatly improve the performance
of deep models. This prompts us to study transformer-based structures and apply
them to multi-modal medical images. Existing transformer-based network
architectures require large-scale datasets to achieve better performance.
However, medical imaging datasets are relatively small, which makes it
difficult to apply pure transformers to medical image analysis. Therefore, we
propose TransMed for multi-modal medical image classification. TransMed
combines the advantages of CNN and transformer to efficiently extract low-level
features of images and establish long-range dependencies between modalities. We
evaluated our model for the challenging problem of preoperative diagnosis of
parotid gland tumors, and the experimental results show the advantages of our
proposed method. We argue that the combination of CNN and transformer has
tremendous potential in a large number of medical image analysis tasks. To our
best knowledge, this is the first work to apply transformers to medical image
classification.
- Abstract(参考訳): 過去10年間で、畳み込みニューラルネットワーク(CNN)は、疾患分類、腫瘍分割、病変検出などの医療画像分析タスクで非常に競争力のあるパフォーマンスを示しています。
CNNは画像の局所的な特徴を抽出する上で大きな利点がある。
しかし、畳み込み操作の局所性のために、それは長距離関係をうまく扱うことができません。
近年,コンピュータビジョンにトランスフォーマーが適用され,大規模データセットで大きな成功を収めている。
自然画像と比較して、マルチモーダルな医用画像は明確かつ重要な長距離依存を持ち、効果的なマルチモーダル融合戦略はディープモデルの性能を大幅に向上させることができる。
これにより,トランスフォーマー構造を解析し,マルチモーダル医療画像に適用することが可能になる。
既存のトランスフォーマーベースのネットワークアーキテクチャは、パフォーマンス向上のために大規模なデータセットを必要とする。
しかし、医用画像データセットは比較的小さいため、純粋なトランスフォーマーを医用画像解析に適用することは困難である。
そこで,マルチモーダル医療画像分類のためのTransMedを提案する。
TransMedはCNNとトランスフォーマーの利点を組み合わせて、画像の低レベル特徴を効率的に抽出し、モダリティ間の長距離依存関係を確立する。
術前の耳下腺腫瘍診断の難易度をモデルとして評価し,本手法の有用性を検討した。
CNNとトランスフォーマーの組み合わせは多くの医療画像解析タスクにおいて大きな可能性を秘めていると我々は主張する。
私たちの最良の知識に、これは医療画像分類にトランスを適用する最初の仕事です。
関連論文リスト
- MGI: Multimodal Contrastive pre-training of Genomic and Medical Imaging [16.325123491357203]
本稿では,下流タスクにゲノムと医用画像を併用したマルチモーダル事前学習フレームワークを提案する。
我々は,マンバを遺伝子エンコーダとして,ビジョントランスフォーマー(ViT)を医用画像エンコーダとして組み合わせた,自己指導型コントラスト学習アプローチを用いて医用画像と遺伝子を調整した。
論文 参考訳(メタデータ) (2024-06-02T06:20:45Z) - Transformer-CNN Fused Architecture for Enhanced Skin Lesion Segmentation [0.0]
畳み込みニューラルネットワーク(CNN)は、非常に高度な医療画像セグメンテーションを持つ。
CNNは、長距離依存関係の学習とグローバルコンテキストの取得に苦労している。
我々は、トランスフォーマーがグローバルな依存関係をキャプチャする能力と、CNNが低レベル空間の詳細をキャプチャする能力を組み合わせたハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-10T18:36:14Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Transformer-Unet: Raw Image Processing with Unet [4.7944896477309555]
Unetの機能マップの代わりに、生画像にトランスフォーマーモジュールを追加することで、Transformer-Unetを提案する。
実験では、エンド・ツー・エンドのネットワークを構築し、従来の多くのUnetベースのアルゴリズムよりもセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2021-09-17T09:03:10Z) - Pyramid Medical Transformer for Medical Image Segmentation [8.157373686645318]
ピラミッド型ネットワークアーキテクチャ(PMTrans)を用いたマルチスケールアテンションとCNN特徴抽出を統合した新しい手法を開発した。
2つの医用画像データセット(腺セグメンテーションとMoNuSegデータセット)の実験結果によると、PMTransは最新のCNNベースおよびトランスフォーマーベースの医療用画像セグメンテーションモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-29T23:57:20Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。