論文の概要: Multimodal Information Interaction for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2404.16371v1
- Date: Thu, 25 Apr 2024 07:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:38:43.553487
- Title: Multimodal Information Interaction for Medical Image Segmentation
- Title(参考訳): 医用画像セグメンテーションのためのマルチモーダル情報インタラクション
- Authors: Xinxin Fan, Lin Liu, Haoran Zhang,
- Abstract要約: 革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
- 参考スコア(独自算出の注目度): 24.024848382458767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of multimodal data in assisted diagnosis and segmentation has emerged as a prominent area of interest in current research. However, one of the primary challenges is how to effectively fuse multimodal features. Most of the current approaches focus on the integration of multimodal features while ignoring the correlation and consistency between different modal features, leading to the inclusion of potentially irrelevant information. To address this issue, we introduce an innovative Multimodal Information Cross Transformer (MicFormer), which employs a dual-stream architecture to simultaneously extract features from each modality. Leveraging the Cross Transformer, it queries features from one modality and retrieves corresponding responses from another, facilitating effective communication between bimodal features. Additionally, we incorporate a deformable Transformer architecture to expand the search space. We conducted experiments on the MM-WHS dataset, and in the CT-MRI multimodal image segmentation task, we successfully improved the whole-heart segmentation DICE score to 85.57 and MIoU to 75.51. Compared to other multimodal segmentation techniques, our method outperforms by margins of 2.83 and 4.23, respectively. This demonstrates the efficacy of MicFormer in integrating relevant information between different modalities in multimodal tasks. These findings hold significant implications for multimodal image tasks, and we believe that MicFormer possesses extensive potential for broader applications across various domains. Access to our method is available at https://github.com/fxxJuses/MICFormer
- Abstract(参考訳): 診断・セグメンテーションにおけるマルチモーダルデータの利用は、現在研究において顕著な関心領域となっている。
しかし、主な課題の1つは、マルチモーダル機能を効果的に融合する方法である。
現在のアプローチのほとんどはマルチモーダル機能の統合に重点を置いているが、異なるモーダル機能間の相関や一貫性を無視しているため、潜在的に無関係な情報が含まれる。
この問題に対処するために,マルチモーダル情報クロストランス (MicFormer) を導入し,マルチストリームアーキテクチャを用いて各モーダルから特徴を同時に抽出する。
Cross Transformerを利用することで、あるモダリティから機能をクエリし、対応する応答を別のモダリティから取り出し、バイモーダル機能間の効果的なコミュニケーションを容易にする。
さらに,変形可能なトランスフォーマーアーキテクチャを組み込んで検索空間を拡大する。
我々はMM-WHSデータセットの実験を行い、CT-MRIマルチモーダル画像分割タスクにおいて、全音節分割DICEスコアを85.57、MIoUを75.51に改善した。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
このことは、MicFormerがマルチモーダルタスクにおいて、異なるモーダル間で関連情報を統合する上で有効であることを示す。
これらの発見はマルチモーダル画像タスクに重要な意味を持ち、MicFormerは様々な領域にまたがる幅広い応用の可能性を秘めていると信じている。
私たちのメソッドへのアクセスはhttps://github.com/fxxJuses/MICFormerで利用可能です。
関連論文リスト
- Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [16.17270247327955]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - AttX: Attentive Cross-Connections for Fusion of Wearable Signals in
Emotion Recognition [15.21696076393078]
クロスモーダル注意接続は、ウェアラブルデータからマルチモーダル表現学習のための新しい動的かつ効果的な技術である。
我々は、WASAD、SWELL-KW、CASEの3つの公共マルチモーダルウェアラブルデータセットについて広範な実験を行った。
提案手法は,最先端の手法よりも優れた,あるいは競争的な性能を示し,ベースラインのユニモーダル法や古典的マルチモーダル法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T17:18:33Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。