論文の概要: Learning Modality-Aware Representations: Adaptive Group-wise Interaction Network for Multimodal MRI Synthesis
- arxiv url: http://arxiv.org/abs/2411.14684v2
- Date: Mon, 28 Apr 2025 06:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.012109
- Title: Learning Modality-Aware Representations: Adaptive Group-wise Interaction Network for Multimodal MRI Synthesis
- Title(参考訳): 学習モダリティを意識した表現:マルチモーダルMRI合成のための適応型グループワイドインタラクションネットワーク
- Authors: Tao Song, Yicheng Wu, Minhao Hu, Xiangde Luo, Linda Wei, Guotai Wang, Yi Guo, Feng Xu, Shaoting Zhang,
- Abstract要約: マルチモーダルMR画像合成は、利用可能なMRIモダリティのサブセットから効果的に融合しマッピングすることにより、欠落したモダリティ画像を生成することを目的としている。
本稿では,モダリティ間関係とモダリティ内関係の両方を明示的にモデル化するアダプティブ・グループワイド・インタラクション・ネットワーク(AGI-Net)を提案する。
提案した AGI-Net を IXI および BraTS2023 データセット上で検証する。
- 参考スコア(独自算出の注目度): 22.589087990596887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal MR image synthesis aims to generate missing modality images by effectively fusing and mapping from a subset of available MRI modalities. Most existing methods adopt an image-to-image translation paradigm, treating multiple modalities as input channels. However, these approaches often yield sub-optimal results due to the inherent difficulty in achieving precise feature- or semantic-level alignment across modalities. To address these challenges, we propose an Adaptive Group-wise Interaction Network (AGI-Net) that explicitly models both inter-modality and intra-modality relationships for multimodal MR image synthesis. Specifically, feature channels are first partitioned into predefined groups, after which an adaptive rolling mechanism is applied to conventional convolutional kernels to better capture feature and semantic correspondences between different modalities. In parallel, a cross-group attention module is introduced to enable effective feature fusion across groups, thereby enhancing the network's representational capacity. We validate the proposed AGI-Net on the publicly available IXI and BraTS2023 datasets. Experimental results demonstrate that AGI-Net achieves state-of-the-art performance in multimodal MR image synthesis tasks, confirming the effectiveness of its modality-aware interaction design. We release the relevant code at: https://github.com/zunzhumu/Adaptive-Group-wise-Interaction-Network-for-Multimodal-MRI-Synthesis.git .
- Abstract(参考訳): マルチモーダルMR画像合成は、利用可能なMRIモダリティのサブセットから効果的に融合しマッピングすることにより、欠落したモダリティ画像を生成することを目的としている。
既存のほとんどの手法では画像から画像への変換パラダイムを採用し、複数のモダリティを入力チャネルとして扱う。
しかしながら、これらのアプローチは、モーダル性にまたがる正確な特徴レベルまたは意味レベルのアライメントを達成するのに固有の困難のために、しばしば準最適結果をもたらす。
これらの課題に対処するために,多モードMR画像合成のためのモダリティ間関係とモダリティ間関係の両方を明示的にモデル化するAdaptive Group-wise Interaction Network (AGI-Net)を提案する。
具体的には、まず、特徴チャネルを事前に定義されたグループに分割し、その後に適応的なローリング機構を従来の畳み込みカーネルに適用し、異なるモーダル間の特徴および意味対応をよりよく捉える。
並行して、グループ間の効果的な機能融合を可能にするために、グループ間アテンションモジュールが導入され、それによってネットワークの表現能力が向上する。
提案した AGI-Net を IXI および BraTS2023 データセット上で検証する。
実験により,AGI-NetはマルチモーダルMR画像合成タスクにおける最先端性能を実現し,そのモダリティ認識インタラクション設計の有効性を確認した。
https://github.com/zunzhumu/Adaptive-Group-wise-Interaction-Network-for-Multimodal-MRI-Synthesis.git 。
関連論文リスト
- Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network [12.200776612016698]
本稿では,特徴分布適応ネットワーク(Feature Distribution Adapted Network)と呼ばれる新しい深層帰納学習フレームワークを提案する。
本手法は,感情の一貫した表現を得るために,深層移動学習戦略を用いて視覚的特徴分布と音声的特徴分布を整列させることを目的とする。
論文 参考訳(メタデータ) (2024-10-29T13:13:30Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - A Simple and Robust Framework for Cross-Modality Medical Image
Segmentation applied to Vision Transformers [0.0]
単一条件モデルを用いて複数モードの公平な画像分割を実現するための簡単なフレームワークを提案する。
本研究の枠組みは,マルチモーダル全心条件課題において,他のモダリティセグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T09:51:44Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Unified Brain MR-Ultrasound Synthesis using Multi-Modal Hierarchical
Representations [34.821129614819604]
MHVAE(Deep Hierarchical Variational Auto-Encoder, VAE)は, 様々なモダリティから欠落した画像を合成する。
階層的な潜在構造を持つマルチモーダルVAEを拡張して,複数のモーダル画像を共通の潜在表現で融合する確率的定式化を導入する。
画像の欠落に対して,マルチモーダルVAE,条件付きGAN,現在の最先端統一手法(ResViT)より優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-15T20:21:03Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。