論文の概要: Mirror U-Net: Marrying Multimodal Fission with Multi-task Learning for
Semantic Segmentation in Medical Imaging
- arxiv url: http://arxiv.org/abs/2303.07126v1
- Date: Mon, 13 Mar 2023 13:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 14:53:15.466919
- Title: Mirror U-Net: Marrying Multimodal Fission with Multi-task Learning for
Semantic Segmentation in Medical Imaging
- Title(参考訳): mirror u-net: 医療画像における意味セグメンテーションのためのマルチモーダルフィッションとマルチタスク学習の融合
- Authors: Zdravko Marinov, Simon Rei{\ss}, David Kersting, Jens Kleesiek, Rainer
Stiefelhagen
- Abstract要約: 従来の融合法をマルチモーダル核分裂に置き換えるミラーU-Netを提案する。
Mirror U-Netは、共有表現でマルチモーダルな特徴を保持しながら、モダリティごとに調整されたタスクを割り当てる。
我々は、AutoPET PET/CTおよびマルチモーダルMSD BrainTumorデータセット上でミラーU-Netを評価し、マルチモーダルセグメンテーションの有効性を実証し、両方のデータセットで最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 19.011295977183835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positron Emission Tomography (PET) and Computer Tomography (CT) are routinely
used together to detect tumors. PET/CT segmentation models can automate tumor
delineation, however, current multimodal models do not fully exploit the
complementary information in each modality, as they either concatenate PET and
CT data or fuse them at the decision level. To combat this, we propose Mirror
U-Net, which replaces traditional fusion methods with multimodal fission by
factorizing the multimodal representation into modality-specific branches and
an auxiliary multimodal decoder. At these branches, Mirror U-Net assigns a task
tailored to each modality to reinforce unimodal features while preserving
multimodal features in the shared representation. In contrast to previous
methods that use either fission or multi-task learning, Mirror U-Net combines
both paradigms in a unified framework. We explore various task combinations and
examine which parameters to share in the model. We evaluate Mirror U-Net on the
AutoPET PET/CT and on the multimodal MSD BrainTumor datasets, demonstrating its
effectiveness in multimodal segmentation and achieving state-of-the-art
performance on both datasets. Our code will be made publicly available.
- Abstract(参考訳): PET(Positron Emission Tomography)とCT(Computer Tomography)を併用して腫瘍を検出する。
PET/CTセグメンテーションモデルは腫瘍の脱線を自動化できるが、現在のマルチモーダルモデルはPETとCTデータを結合するか、決定レベルで融合させるため、各モードで補完的な情報を十分に活用していない。
そこで本研究では,従来の融合法をマルチモーダルフィッションに置き換えたミラーU-Netを提案し,マルチモーダル表現をモーダル固有分岐と補助マルチモーダルデコーダに分解する。
これらのブランチでは、mirror u-netは共有表現のマルチモーダルな特徴を維持しながら、ユニモーダルな特徴を強化するために各モダリティに合わせたタスクを割り当てる。
フィッションやマルチタスク学習を使う従来の方法とは対照的に、Mirror U-Netは両方のパラダイムを統一されたフレームワークで組み合わせている。
様々なタスクの組み合わせを調べ、モデルでどのパラメータを共有するべきかを調べる。
我々は, autopet pet/ct と multimodal msd braintumor dataset 上のミラー u-net を評価し,マルチモーダルセグメンテーションにおけるその効果を実証し,両データセットの最先端性能を実現する。
私たちのコードは公開されます。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation [97.82707398481273]
メタマルチモーダルフュージョン(MetaMMF)と呼ばれるメタラーニングに基づく新しいマルチモーダルフュージョンフレームワークを開発する。
メタMMFは、入力タスクのマルチモーダル特徴から抽出されたメタ情報に基づいて、メタラーナを介して、アイテム固有の融合関数としてニューラルネットワークをパラメータ化する。
我々は3つのベンチマークデータセットに対して広範な実験を行い、最先端のマルチモーダルレコメンデーションモデルに対する大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-01-13T07:51:43Z) - Diff4MMLiTS: Advanced Multimodal Liver Tumor Segmentation via Diffusion-Based Image Synthesis and Alignment [3.700932355945534]
マルチモーダル学習は、様々な臨床課題におけるパフォーマンスを高めることが実証されている。
Diff4MMLiTSは4段階のマルチモーダル肝腫瘍セグメンテーションパイプラインである。
公開および内部データセットの実験は、他の最先端マルチモーダルセグメンテーション法よりもDiff4MMLiTSの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-12-29T09:55:00Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder [1.90365714903665]
本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。
我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
論文 参考訳(メタデータ) (2023-11-23T00:53:11Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。