Fugu-MT 論文翻訳(概要): TFormer: A throughout fusion transformer for multi-modal skin lesion diagnosis

論文の概要: TFormer: A throughout fusion transformer for multi-modal skin lesion diagnosis

arxiv url: http://arxiv.org/abs/2211.11393v1
Date: Mon, 21 Nov 2022 12:07:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 21:09:11.430290
Title: TFormer: A throughout fusion transformer for multi-modal skin lesion diagnosis
Title（参考訳）: TFormer:マルチモーダル皮膚病変診断のための核融合トランス
Authors: Yilan Zhang, Fengying Xie, Jianqi Chen, Jie Liu
Abstract要約: 我々は,MSLDで十分な情報干渉を行うために,純粋なトランスフォーマーベースのTFormer(スルーアウト・フュージョン・トランスフォーマー)を提案する。そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,ステージバイステージ方式で異なる画像モダリティ間で情報を融合する。我々のTFormerは、他の最先端メソッドよりも優れています。
参考スコア（独自算出の注目度）: 6.899641625551976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal skin lesion diagnosis (MSLD) has achieved remarkable success by modern computer-aided diagnosis technology based on deep convolutions. However, the information aggregation across modalities in MSLD remains challenging due to severity unaligned spatial resolution (dermoscopic image and clinical image) and heterogeneous data (dermoscopic image and patients' meta-data). Limited by the intrinsic local attention, most recent MSLD pipelines using pure convolutions struggle to capture representative features in shallow layers, thus the fusion across different modalities is usually done at the end of the pipelines, even at the last layer, leading to an insufficient information aggregation. To tackle the issue, we introduce a pure transformer-based method, which we refer to as ``Throughout Fusion Transformer (TFormer)", for sufficient information intergration in MSLD. Different from the existing approaches with convolutions, the proposed network leverages transformer as feature extraction backbone, bringing more representative shallow features. We then carefully design a stack of dual-branch hierarchical multi-modal transformer (HMT) blocks to fuse information across different image modalities in a stage-by-stage way. With the aggregated information of image modalities, a multi-modal transformer post-fusion (MTP) block is designed to integrate features across image and non-image data. Such a strategy that information of the image modalities is firstly fused then the heterogeneous ones enables us to better divide and conquer the two major challenges while ensuring inter-modality dynamics are effectively modeled. Experiments conducted on the public Derm7pt dataset validate the superiority of the proposed method. Our TFormer outperforms other state-of-the-art methods. Ablation experiments also suggest the effectiveness of our designs.
Abstract（参考訳）: マルチモーダル皮膚病変診断(msld)は、深い畳み込みに基づく現代のコンピュータ支援診断技術によって顕著な成功を収めている。しかし,msldの非整合空間分解能 (dermoscopic image and clinical image) と異種データ (dermoscopic image and patient' meta-data) により,msldにおけるモダリティ間の情報集約は依然として困難である。内在的な局所的な注意によって制限された最近のmsldパイプラインは、純粋な畳み込みを使用して、浅い層で代表的な特徴を捉えるのに苦労しているため、異なるモダリティの融合は通常、パイプラインの最後に、最終層でも行われ、情報集約が不十分になる。この問題に対処するため,MSLDで十分な情報交換を行うために,純粋なトランスフォーマーベースの手法「Throughout Fusion Transformer (TFormer)」を導入する。畳み込みによる既存のアプローチとは異なり、提案されているネットワークはtransformerを特徴抽出バックボーンとして活用し、より典型的な浅い特徴をもたらす。そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,段階的に異なる画像モダリティ間で情報を融合する。画像モダリティの集約情報により、マルチモーダルトランスフォーマーポストフュージョン(MTP)ブロックは、画像データと非画像データの間で機能を統合するように設計されている。画像モダリティの情報を最初に融合させる戦略は、不均一な手法によって、モダリティ間のダイナミクスを効果的にモデル化しながら、2つの大きな課題をよりよく分割し、克服することができる。公開Derm7ptデータセットで行った実験は,提案手法の優位性を検証した。我々のTFormerは、他の最先端メソッドよりも優れています。アブレーション実験は我々の設計の有効性も示唆している。

関連論文リスト

Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution using Conditional Diffusion Model [2.507050016527729]
トリモーダル医療画像融合は、病気の形状、位置、生物学的活動をより包括的に見ることができる。画像装置の限界や患者の安全への配慮により、医療画像の品質は制限されることが多い。画像の解像度を向上し、マルチモーダル情報を統合できる技術が緊急に必要である。
論文参考訳（メタデータ） (2024-04-26T12:13:41Z)
AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文参考訳（メタデータ） (2023-10-09T07:10:30Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文参考訳（メタデータ） (2023-03-13T04:06:42Z)
TranSiam: Fusing Multimodal Visual Features Using Transformer for Medical Image Segmentation [4.777011444412729]
グローバルな情報をキャプチャできるマルチモーダル医療画像に適したセグメンテーション手法を提案する。 TranSiamは、異なるモードの特徴を抽出する2次元デュアルパスネットワークである。 BraTS 2019とBraTS 2020のマルチモーダルデータセットでは、他の一般的なメソッドよりも精度が大幅に向上しています。
論文参考訳（メタデータ） (2022-04-26T09:39:10Z)
TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation with Transformers [8.139069987207494]
コンボリューション層と強力なアテンション機構を用いた多視点画像情報をマージするトランスフォーマーベースのアーキテクチャであるTransFusionを提案する。特に、ディバージェント・フュージョン・アテンション(DiFA)モジュールは、リッチ・クロスビュー・コンテキスト・モデリングとセマンティック・インテリジェンス・マイニングのために提案されている。
論文参考訳（メタデータ） (2022-03-21T04:02:54Z)
TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation [33.45471457058221]
本稿では,TransAttUnetと呼ばれるトランスフォーマーベースの医用画像セマンティックセマンティック・セマンティック・フレームワークを提案する。特に,デコーダブロック間の複数スケールのスキップ接続を確立することで,セマンティック・スケールのアップサンプリング機能を集約する。我々の手法は一貫して最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2021-07-12T09:17:06Z)
Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文参考訳（メタデータ） (2020-02-22T14:32:04Z)
Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文参考訳（メタデータ） (2020-02-11T08:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。