論文の概要: TFormer: A throughout fusion transformer for multi-modal skin lesion
diagnosis
- arxiv url: http://arxiv.org/abs/2211.11393v1
- Date: Mon, 21 Nov 2022 12:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:09:11.430290
- Title: TFormer: A throughout fusion transformer for multi-modal skin lesion
diagnosis
- Title(参考訳): TFormer:マルチモーダル皮膚病変診断のための核融合トランス
- Authors: Yilan Zhang, Fengying Xie, Jianqi Chen, Jie Liu
- Abstract要約: 我々は,MSLDで十分な情報干渉を行うために,純粋なトランスフォーマーベースのTFormer(スルーアウト・フュージョン・トランスフォーマー)を提案する。
そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,ステージバイステージ方式で異なる画像モダリティ間で情報を融合する。
我々のTFormerは、他の最先端メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 6.899641625551976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal skin lesion diagnosis (MSLD) has achieved remarkable success by
modern computer-aided diagnosis technology based on deep convolutions. However,
the information aggregation across modalities in MSLD remains challenging due
to severity unaligned spatial resolution (dermoscopic image and clinical image)
and heterogeneous data (dermoscopic image and patients' meta-data). Limited by
the intrinsic local attention, most recent MSLD pipelines using pure
convolutions struggle to capture representative features in shallow layers,
thus the fusion across different modalities is usually done at the end of the
pipelines, even at the last layer, leading to an insufficient information
aggregation. To tackle the issue, we introduce a pure transformer-based method,
which we refer to as ``Throughout Fusion Transformer (TFormer)", for sufficient
information intergration in MSLD. Different from the existing approaches with
convolutions, the proposed network leverages transformer as feature extraction
backbone, bringing more representative shallow features. We then carefully
design a stack of dual-branch hierarchical multi-modal transformer (HMT) blocks
to fuse information across different image modalities in a stage-by-stage way.
With the aggregated information of image modalities, a multi-modal transformer
post-fusion (MTP) block is designed to integrate features across image and
non-image data. Such a strategy that information of the image modalities is
firstly fused then the heterogeneous ones enables us to better divide and
conquer the two major challenges while ensuring inter-modality dynamics are
effectively modeled. Experiments conducted on the public Derm7pt dataset
validate the superiority of the proposed method. Our TFormer outperforms other
state-of-the-art methods. Ablation experiments also suggest the effectiveness
of our designs.
- Abstract(参考訳): マルチモーダル皮膚病変診断(msld)は、深い畳み込みに基づく現代のコンピュータ支援診断技術によって顕著な成功を収めている。
しかし,msldの非整合空間分解能 (dermoscopic image and clinical image) と異種データ (dermoscopic image and patient' meta-data) により,msldにおけるモダリティ間の情報集約は依然として困難である。
内在的な局所的な注意によって制限された最近のmsldパイプラインは、純粋な畳み込みを使用して、浅い層で代表的な特徴を捉えるのに苦労しているため、異なるモダリティの融合は通常、パイプラインの最後に、最終層でも行われ、情報集約が不十分になる。
この問題に対処するため,MSLDで十分な情報交換を行うために,純粋なトランスフォーマーベースの手法「Throughout Fusion Transformer (TFormer)」を導入する。
畳み込みによる既存のアプローチとは異なり、提案されているネットワークはtransformerを特徴抽出バックボーンとして活用し、より典型的な浅い特徴をもたらす。
そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,段階的に異なる画像モダリティ間で情報を融合する。
画像モダリティの集約情報により、マルチモーダルトランスフォーマーポストフュージョン(MTP)ブロックは、画像データと非画像データの間で機能を統合するように設計されている。
画像モダリティの情報を最初に融合させる戦略は、不均一な手法によって、モダリティ間のダイナミクスを効果的にモデル化しながら、2つの大きな課題をよりよく分割し、克服することができる。
公開Derm7ptデータセットで行った実験は,提案手法の優位性を検証した。
我々のTFormerは、他の最先端メソッドよりも優れています。
アブレーション実験は我々の設計の有効性も示唆している。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution using Conditional Diffusion Model [2.507050016527729]
トリモーダル医療画像融合は、病気の形状、位置、生物学的活動をより包括的に見ることができる。
画像装置の限界や患者の安全への配慮により、医療画像の品質は制限されることが多い。
画像の解像度を向上し、マルチモーダル情報を統合できる技術が緊急に必要である。
論文 参考訳(メタデータ) (2024-04-26T12:13:41Z) - AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential
Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。
提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-10-09T07:10:30Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - TranSiam: Fusing Multimodal Visual Features Using Transformer for
Medical Image Segmentation [4.777011444412729]
グローバルな情報をキャプチャできるマルチモーダル医療画像に適したセグメンテーション手法を提案する。
TranSiamは、異なるモードの特徴を抽出する2次元デュアルパスネットワークである。
BraTS 2019とBraTS 2020のマルチモーダルデータセットでは、他の一般的なメソッドよりも精度が大幅に向上しています。
論文 参考訳(メタデータ) (2022-04-26T09:39:10Z) - TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation
with Transformers [8.139069987207494]
コンボリューション層と強力なアテンション機構を用いた多視点画像情報をマージするトランスフォーマーベースのアーキテクチャであるTransFusionを提案する。
特に、ディバージェント・フュージョン・アテンション(DiFA)モジュールは、リッチ・クロスビュー・コンテキスト・モデリングとセマンティック・インテリジェンス・マイニングのために提案されている。
論文 参考訳(メタデータ) (2022-03-21T04:02:54Z) - TransAttUnet: Multi-level Attention-guided U-Net with Transformer for
Medical Image Segmentation [33.45471457058221]
本稿では,TransAttUnetと呼ばれるトランスフォーマーベースの医用画像セマンティックセマンティック・セマンティック・フレームワークを提案する。
特に,デコーダブロック間の複数スケールのスキップ接続を確立することで,セマンティック・スケールのアップサンプリング機能を集約する。
我々の手法は一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2021-07-12T09:17:06Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。