論文の概要: Architecture-Agnostic Modality-Isolated Gated Fusion for Robust Multi-Modal Prostate MRI Segmentation
- arxiv url: http://arxiv.org/abs/2604.10702v2
- Date: Tue, 14 Apr 2026 01:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.409302
- Title: Architecture-Agnostic Modality-Isolated Gated Fusion for Robust Multi-Modal Prostate MRI Segmentation
- Title(参考訳): 頑健な多モード前立腺MRI偏位に対するアーキテクチャ非依存的モダリティ分離Gated Fusion
- Authors: Yongbo Shu, Wenzhao Xie, Shanhu Yao, Zirui Xin, Luo Lei, Kewen Chen, Aijing Luo,
- Abstract要約: 既存のマルチモーダル融合戦略は、初期層における完全な入力とモダリティ固有の情報の絡み合わせを前提としている。
我々は、学習ゲーティングステージの前に、個別のモダリティ固有の符号化ストリームを維持するために、Modality-Isolated Gated Fusion (MIGF)を提案する。
我々は、6つの素のバックボーンをベンチマークし、7つの欠落したモダリティとアーティファクトシナリオに基づいてMIGF搭載モデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-parametric prostate MRI -- combining T2-weighted, apparent diffusion coefficient, and high b-value diffusion-weighted sequences -- is central to non-invasive detection of clinically significant prostate cancer, yet in routine practice individual sequences may be missing or degraded by motion, artifacts, or abbreviated protocols. Existing multi-modal fusion strategies typically assume complete inputs and entangle modality-specific information at early layers, offering limited resilience when one channel is corrupted or absent. We propose Modality-Isolated Gated Fusion (MIGF), an architecture-agnostic module that maintains separate modality-specific encoding streams before a learned gating stage, combined with modality dropout training to enforce compensation behavior under incomplete inputs. We benchmark six bare backbones and assess MIGF-equipped models under seven missing-modality and artifact scenarios on the PI-CAI dataset (1,500 studies, fold-0 split, five random seeds). Among bare backbones, nnUNet provided the strongest balance of performance and stability. MIGF improved ideal-scenario Ranking Score for UNet, nnUNet, and Mamba by 2.8%, 4.6%, and 13.4%, respectively; the best model, MIGFNet-nnUNet (gating + ModDrop, no deep supervision), achieved 0.7304 +/- 0.056. Mechanistic analysis reveals that robustness gains arise from strict modality isolation and dropout-driven compensation rather than adaptive per-sample quality routing: the gate converged to a stable modality prior, and deep supervision was beneficial only for the largest backbone while degrading lighter models. These findings support a simpler design principle for robust multi-modal segmentation: structurally contain corrupted inputs first, then train explicitly for incomplete-input compensation.
- Abstract(参考訳): T2強調、見かけの拡散係数、高いb値拡散強調配列を組み合わせた多パラメータ前立腺MRIは、臨床的に重要な前立腺癌の非侵襲的検出の中心であるが、日常的な実践では、個々の配列は運動、人工物、短縮プロトコルによって欠落または劣化する可能性がある。
既存のマルチモーダル融合戦略は、通常、初期の層において完全な入力を仮定し、モダリティ固有の情報を絡み合わせる。
我々は、学習ゲーティングステージの前に個別のモダリティ固有の符号化ストリームを保持するアーキテクチャ非依存モジュールMIGFと、不完全入力下で補償動作を強制するためのモダリティドロップアウトトレーニングを組み合わせることを提案する。
PI-CAIデータセット(1500研究、折りたたみ0分割、5つのランダムシード)において、6つの素のバックボーンをベンチマークし、7つの欠落モードおよびアーティファクトシナリオに基づいてMIGF対応モデルを評価した。
素のバックボーンの中で、nnUNetはパフォーマンスと安定性のバランスが最強だった。
MIGFはUNet、nnUNet、Mambaの理想的なランキングスコアをそれぞれ2.8%、4.6%、13.4%改善した。
メカニカル分析では、厳密なモダリティ分離とドロップアウト駆動による補償により、適応的なサンプル単位の品質ルーティングよりもロバスト性が向上することが示されており、ゲートが安定なモダリティに収まる前に収束し、より軽量なモデルを劣化させながら、最大のバックボーンに対してのみ深い監督が有用であった。
これらの発見は、堅牢なマルチモーダルセグメンテーションのためのより単純な設計原則を支持している: 構造的には、まず破損した入力を包含し、次に、不完全なインプット補償のために明示的に訓練する。
関連論文リスト
- Plug-and-Play Logit Fusion for Heterogeneous Pathology Foundation Models [28.682541563931593]
軽量で斬新なモデル融合戦略であるLogitProdを紹介する。
独立に訓練されたFMベースの予測器を固定専門家として扱い、スライドレベルの出力よりもサンプル適応型融合重みを学習する。
LogitProdは、まず20/22タスクにランク付けし、最強のシングルエキスパートに対して、全タスクの平均パフォーマンスを3%向上させる。
論文 参考訳(メタデータ) (2026-04-09T04:10:54Z) - PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities [86.63247982275396]
PRIMEは、欠落を認識したマルチモーダルな自己教師型事前トレーニングフレームワークである。
部分的に観察されたコホートから頑健で伝達可能な表現を学ぶ。
The Cancer Genome AtlasのPRIMEを32種類の癌に対してラベルフリープレトレーニングで評価した。
論文 参考訳(メタデータ) (2026-04-05T21:14:27Z) - Less is More in Semantic Space: Intrinsic Decoupling via Clifford-M for Fundus Image Classification [13.23226865033351]
フィードフォワード展開と周波数分割モジュールを疎幾何学的相互作用で置き換える軽量バックボーンであるClifford-Mを提案する。
プリトレーニングなしでは、Clifford-M は平均 AUC-ROC が 0.8142 で、平均マクロF1 が 0.5481 で、ODIR-5K は 0.85M のパラメータしか持たない。
論文 参考訳(メタデータ) (2026-03-21T13:00:05Z) - UniField: A Unified Field-Aware MRI Enhancement Framework [45.03230466428695]
methodnameは、複数のモダリティと拡張タスクを統合する統合フレームワークである。
我々は、事前学習した3D基礎モデルを利用して、総合的な3Dボリューム情報を利用する。
我々は,総合的なマルチフィールドMRIデータセットを編成し,公開する。
論文 参考訳(メタデータ) (2026-03-10T05:45:12Z) - Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - PathCo-LatticE: Pathology-Constrained Lattice-Of Experts Framework for Fully-supervised Few-Shot Cardiac MRI Segmentation [0.0]
わずかな撮影学習は、心臓MRIのセグメンテーションにおけるデータの不足を緩和する。
PathCo-LatticEは、ラベルのないデータを、病理誘導合成監視に置き換える。
論文 参考訳(メタデータ) (2025-12-10T15:59:43Z) - Improved mmFormer for Liver Fibrosis Staging via Missing-Modality Compensation [8.687370165870613]
本稿では,mmFormerアーキテクチャをベースとしたマルチモーダルMRI分類モデルを提案する。
本手法は,Real-world 医療画像の総合解析・計算テストセット(CARE 2025 Challenge)に基づいて評価する。
In-distribution vendors におけるCirrhosis Detection と Substantial Fibrosis Detection では,66.67% と74.17% の精度を示し,AUC では 71.73% と68.48% の精度を示した。
論文 参考訳(メタデータ) (2025-09-19T21:31:05Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。