論文の概要: Multimodal Fusion at Three Tiers: Physics-Driven Data Generation and Vision-Language Guidance for Brain Tumor Segmentation
- arxiv url: http://arxiv.org/abs/2507.09966v3
- Date: Sun, 19 Oct 2025 06:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:08.515999
- Title: Multimodal Fusion at Three Tiers: Physics-Driven Data Generation and Vision-Language Guidance for Brain Tumor Segmentation
- Title(参考訳): 3つの階層におけるマルチモーダル核融合:脳腫瘍分離のための物理駆動データ生成とビジョンランゲージ誘導
- Authors: Mingda Zhang,
- Abstract要約: 本稿では,脳腫瘍の正確なセグメンテーションを実現する3層融合アーキテクチャを提案する。
この方法は、画素、特徴、意味レベルで情報を段階的に処理する。
我々は,脳腫瘍(BraTS)2020,2021,2023データセットの検証を行った。
- 参考スコア(独自算出の注目度): 8.695435245976482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate brain tumor segmentation is crucial for neuro-oncology diagnosis and treatment planning. Deep learning methods have made significant progress, but automatic segmentation still faces challenges, including tumor morphological heterogeneity and complex three-dimensional spatial relationships. This paper proposes a three-tier fusion architecture that achieves precise brain tumor segmentation. The method processes information progressively at the pixel, feature, and semantic levels. At the pixel level, physical modeling extends magnetic resonance imaging (MRI) to multimodal data, including simulated ultrasound and synthetic computed tomography (CT). At the feature level, the method performs Transformer-based cross-modal feature fusion through multi-teacher collaborative distillation, integrating three expert teachers (MRI, US, CT). At the semantic level, clinical textual knowledge generated by GPT-4V is transformed into spatial guidance signals using CLIP contrastive learning and Feature-wise Linear Modulation (FiLM). These three tiers together form a complete processing chain from data augmentation to feature extraction to semantic guidance. We validated the method on the Brain Tumor Segmentation (BraTS) 2020, 2021, and 2023 datasets. The model achieves average Dice coefficients of 0.8665, 0.9014, and 0.8912 on the three datasets, respectively, and reduces the 95% Hausdorff Distance (HD95) by an average of 6.57 millimeters compared with the baseline. This method provides a new paradigm for precise tumor segmentation and boundary localization.
- Abstract(参考訳): 脳腫瘍の正確なセグメンテーションは神経腫瘍診断と治療計画に不可欠である。
深層学習法は大きな進歩を遂げているが、腫瘍形態的不均一性や複雑な3次元空間的関係など、自動セグメンテーションは依然として課題に直面している。
本稿では,脳腫瘍の正確なセグメンテーションを実現する3層融合アーキテクチャを提案する。
この方法は、画素、特徴、意味レベルで情報を段階的に処理する。
ピクセルレベルでは、物理モデリングは磁気共鳴画像(MRI)をシミュレーション超音波や合成CTなどのマルチモーダルデータに拡張する。
特徴レベルでは,多教師共同蒸留によるトランスフォーマーを用いたクロスモーダル機能融合を行い,専門教員3名(MRI,US,CT)を統合する。
意味レベルでは、GPT-4Vによって生成された臨床テキスト知識は、CLIPコントラスト学習とFiLM(Feature-wise Linear Modulation)を用いて空間誘導信号に変換される。
これら3つの階層は、データ拡張から特徴抽出、セマンティックガイダンスに至るまで、完全な処理チェーンを形成する。
我々は,脳腫瘍分離(BraTS)2020,2021,2023データセットの検証を行った。
このモデルは3つのデータセットの平均Dice係数0.8665、0.9014、0.8912をそれぞれ達成し、ベースラインと比較して95%ハウスドルフ距離(HD95)を平均6.57mm削減する。
本手法は, 腫瘍の正確なセグメント化と境界局在化のための新しいパラダイムを提供する。
関連論文リスト
- Graph-based Multi-Modal Interaction Lightweight Network for Brain Tumor Segmentation (GMLN-BTS) in Edge Iterative MRI Lesion Localization System (EdgeIMLocSys) [6.451534509235736]
本稿では,人間のフィードバックから連続学習を統合するEdge IMLocSys (Edge Iterative MRI Lesion Localization System) を提案する。
このシステムの中心は、GMLN-BTS(GMLN-BTS)のためのグラフベースの多モード相互作用軽量ネットワークである。
提案したGMLN-BTSモデルは、BraTS 2017データセットで85.1%のDiceスコアを達成し、パラメータはわずか458万で、メインストリームの3Dトランスフォーマーモデルと比較して98%削減された。
論文 参考訳(メタデータ) (2025-07-14T07:29:49Z) - A Multi-Modal Fusion Framework for Brain Tumor Segmentation Based on 3D Spatial-Language-Vision Integration and Bidirectional Interactive Attention Mechanism [6.589206192038366]
このフレームワークは、369個の多施設MRIスキャンからなるBraTS 2020データセットで評価された。
提案法は, 腫瘍, 腫瘍コア, 全腫瘍領域にわたって平均Dice係数0.8505, 95%Hausdorff距離2.8256mmを実現した。
論文 参考訳(メタデータ) (2025-07-11T13:21:56Z) - Ensemble Learning and 3D Pix2Pix for Comprehensive Brain Tumor Analysis in Multimodal MRI [2.104687387907779]
本研究では,ハイブリッドトランスモデルと畳み込みニューラルネットワーク(CNN)を用いたアンサンブル学習の強みを活用した統合的アプローチを提案する。
本手法は,アキシャルアテンションとトランスフォーマーエンコーダを併用して,高機能な空間関係モデリングを行う。
その結果,Dice similarity Coefficient (DSC), Hausdorff Distance (HD95), Structure similarity Index Measure (SSIM), Peak Signal-to-Noise Ratio (PSNR), Mean-Square Error (MSE) などの画期的な評価が得られた。
論文 参考訳(メタデータ) (2024-12-16T15:10:53Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Learning Brain Tumor Representation in 3D High-Resolution MR Images via Interpretable State Space Models [42.55786269051626]
本稿では,高解像度データを効率的に処理するために,ViTライクなモデルを拡張した新しい状態空間モデル (SSM) ベースのマスク付きオートエンコーダを提案する。
本稿では,入力ボリューム内の特定の領域に対応する潜時特徴の直接可視化を可能にする潜時空間マッピング手法を提案する。
本結果は,SSMに基づく自己教師型学習が,効率と解釈可能性を組み合わせた放射能解析を変換する可能性を強調した。
論文 参考訳(メタデータ) (2024-09-12T04:36:50Z) - Brain Tumor Segmentation in MRI Images with 3D U-Net and Contextual Transformer [0.5033155053523042]
本研究では,3D-UNetモデルとコンテキストトランスフォーマ(CoT)を併用したMRIにおける脳腫瘍の正確なセグメンテーションのための改良手法を提案する。
提案モデルでは,CoTから腫瘍の質量特性を同期させ,特徴抽出を相互に強化し,詳細な腫瘍の質量構造を正確に把握する。
いくつかの実験結果から,提案手法の優れたセグメンテーション性能が得られた。
論文 参考訳(メタデータ) (2024-07-11T13:04:20Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Cross-modality Guidance-aided Multi-modal Learning with Dual Attention
for MRI Brain Tumor Grading [47.50733518140625]
脳腫瘍は世界で最も致命的ながんの1つであり、子供や高齢者に非常に多い。
本稿では,MRI脳腫瘍グレーディングの課題に対処するために,新たな多モード学習法を提案する。
論文 参考訳(メタデータ) (2024-01-17T07:54:49Z) - Automated Ensemble-Based Segmentation of Adult Brain Tumors: A Novel
Approach Using the BraTS AFRICA Challenge Data [0.0]
3つのコアアーキテクチャに基づく11種類のユニークなバリエーションからなるアンサンブル手法を提案する。
その結果,異なるアーキテクチャを組み合わせるアンサンブルアプローチが単一モデルより優れていることがわかった。
これらの結果は、脳腫瘍を正確に分類する上での、調整された深層学習技術の可能性を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-14T15:34:22Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - Inter-slice Context Residual Learning for 3D Medical Image Segmentation [38.43650000401734]
本稿では,3次元医用画像の正確なセグメンテーションのための3次元コンテキスト残差ネットワーク(ConResNet)を提案する。
このモデルはエンコーダ、セグメンテーションデコーダ、コンテキスト残留デコーダで構成される。
提案したConResNetは,脳腫瘍セグメンテーションにおける上位6つの方法と膵腫瘍セグメンテーションにおける上位7つの方法より正確である。
論文 参考訳(メタデータ) (2020-11-28T16:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。