論文の概要: A Brain Tumor Segmentation Method Based on CLIP and 3D U-Net with Cross-Modal Semantic Guidance and Multi-Level Feature Fusion
- arxiv url: http://arxiv.org/abs/2507.09966v2
- Date: Thu, 17 Jul 2025 09:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 13:45:37.440175
- Title: A Brain Tumor Segmentation Method Based on CLIP and 3D U-Net with Cross-Modal Semantic Guidance and Multi-Level Feature Fusion
- Title(参考訳): クロスモーダル・セマンティック誘導とマルチレベル特徴融合を用いたCLIPと3次元U-Netに基づく脳腫瘍分離法
- Authors: Mingda Zhang,
- Abstract要約: 本研究では,画素レベル,特徴レベル,意味レベル情報を統合したマルチレベル融合アーキテクチャを提案する。
提案モデルでは,従来の3次元U-Netに比べて4.8%向上したDice係数が0.8567である。
- 参考スコア(独自算出の注目度): 7.784274233237623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise segmentation of brain tumors from magnetic resonance imaging (MRI) is essential for neuro-oncology diagnosis and treatment planning. Despite advances in deep learning methods, automatic segmentation remains challenging due to tumor morphological heterogeneity and complex three-dimensional spatial relationships. Current techniques primarily rely on visual features extracted from MRI sequences while underutilizing semantic knowledge embedded in medical reports. This research presents a multi-level fusion architecture that integrates pixel-level, feature-level, and semantic-level information, facilitating comprehensive processing from low-level data to high-level concepts. The semantic-level fusion pathway combines the semantic understanding capabilities of Contrastive Language-Image Pre-training (CLIP) models with the spatial feature extraction advantages of 3D U-Net through three mechanisms: 3D-2D semantic bridging, cross-modal semantic guidance, and semantic-based attention mechanisms. Experimental validation on the BraTS 2020 dataset demonstrates that the proposed model achieves an overall Dice coefficient of 0.8567, representing a 4.8% improvement compared to traditional 3D U-Net, with a 7.3% Dice coefficient increase in the clinically important enhancing tumor (ET) region.
- Abstract(参考訳): 磁気共鳴イメージング(MRI)による脳腫瘍の精密分節化は神経腫瘍診断と治療計画に不可欠である。
深層学習法の進歩にもかかわらず、腫瘍形態的不均一性と複雑な3次元空間的関係のため、自動セグメンテーションは依然として困難である。
現在の技術は、主にMRIのシーケンスから抽出された視覚的特徴に依存し、医療報告に埋め込まれた意味的知識を弱めている。
本研究では,画素レベル,特徴レベル,意味レベルの情報を統合し,低レベルのデータから高レベルの概念への包括的処理を容易にするマルチレベル融合アーキテクチャを提案する。
セマンティックレベルの融合経路は、3D-2Dセマンティックブリッジ、クロスモーダルなセマンティックガイダンス、セマンティックベースのアテンション機構という3つのメカニズムを通じて、3D U-Netの空間的特徴抽出の利点と、コントラシティブ言語-画像事前学習(CLIP)モデルのセマンティック理解能力を組み合わせたものである。
BraTS 2020データセットの実験的検証は、提案モデルが従来の3D U-Netと比較して4.8%改善し、臨床的に重要な拡張腫瘍(ET)領域のDice係数が7.3%増加したことを示し、全体のDice係数が0.8567であることを示した。
関連論文リスト
- Graph-based Multi-Modal Interaction Lightweight Network for Brain Tumor Segmentation (GMLN-BTS) in Edge Iterative MRI Lesion Localization System (EdgeIMLocSys) [6.451534509235736]
本稿では,人間のフィードバックから連続学習を統合するEdge IMLocSys (Edge Iterative MRI Lesion Localization System) を提案する。
このシステムの中心は、GMLN-BTS(GMLN-BTS)のためのグラフベースの多モード相互作用軽量ネットワークである。
提案したGMLN-BTSモデルは、BraTS 2017データセットで85.1%のDiceスコアを達成し、パラメータはわずか458万で、メインストリームの3Dトランスフォーマーモデルと比較して98%削減された。
論文 参考訳(メタデータ) (2025-07-14T07:29:49Z) - A Multi-Modal Fusion Framework for Brain Tumor Segmentation Based on 3D Spatial-Language-Vision Integration and Bidirectional Interactive Attention Mechanism [6.589206192038366]
このフレームワークは、369個の多施設MRIスキャンからなるBraTS 2020データセットで評価された。
提案法は, 腫瘍, 腫瘍コア, 全腫瘍領域にわたって平均Dice係数0.8505, 95%Hausdorff距離2.8256mmを実現した。
論文 参考訳(メタデータ) (2025-07-11T13:21:56Z) - Ensemble Learning and 3D Pix2Pix for Comprehensive Brain Tumor Analysis in Multimodal MRI [2.104687387907779]
本研究では,ハイブリッドトランスモデルと畳み込みニューラルネットワーク(CNN)を用いたアンサンブル学習の強みを活用した統合的アプローチを提案する。
本手法は,アキシャルアテンションとトランスフォーマーエンコーダを併用して,高機能な空間関係モデリングを行う。
その結果,Dice similarity Coefficient (DSC), Hausdorff Distance (HD95), Structure similarity Index Measure (SSIM), Peak Signal-to-Noise Ratio (PSNR), Mean-Square Error (MSE) などの画期的な評価が得られた。
論文 参考訳(メタデータ) (2024-12-16T15:10:53Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Learning Brain Tumor Representation in 3D High-Resolution MR Images via Interpretable State Space Models [42.55786269051626]
本稿では,高解像度データを効率的に処理するために,ViTライクなモデルを拡張した新しい状態空間モデル (SSM) ベースのマスク付きオートエンコーダを提案する。
本稿では,入力ボリューム内の特定の領域に対応する潜時特徴の直接可視化を可能にする潜時空間マッピング手法を提案する。
本結果は,SSMに基づく自己教師型学習が,効率と解釈可能性を組み合わせた放射能解析を変換する可能性を強調した。
論文 参考訳(メタデータ) (2024-09-12T04:36:50Z) - Brain Tumor Segmentation in MRI Images with 3D U-Net and Contextual Transformer [0.5033155053523042]
本研究では,3D-UNetモデルとコンテキストトランスフォーマ(CoT)を併用したMRIにおける脳腫瘍の正確なセグメンテーションのための改良手法を提案する。
提案モデルでは,CoTから腫瘍の質量特性を同期させ,特徴抽出を相互に強化し,詳細な腫瘍の質量構造を正確に把握する。
いくつかの実験結果から,提案手法の優れたセグメンテーション性能が得られた。
論文 参考訳(メタデータ) (2024-07-11T13:04:20Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Cross-modality Guidance-aided Multi-modal Learning with Dual Attention
for MRI Brain Tumor Grading [47.50733518140625]
脳腫瘍は世界で最も致命的ながんの1つであり、子供や高齢者に非常に多い。
本稿では,MRI脳腫瘍グレーディングの課題に対処するために,新たな多モード学習法を提案する。
論文 参考訳(メタデータ) (2024-01-17T07:54:49Z) - Automated Ensemble-Based Segmentation of Adult Brain Tumors: A Novel
Approach Using the BraTS AFRICA Challenge Data [0.0]
3つのコアアーキテクチャに基づく11種類のユニークなバリエーションからなるアンサンブル手法を提案する。
その結果,異なるアーキテクチャを組み合わせるアンサンブルアプローチが単一モデルより優れていることがわかった。
これらの結果は、脳腫瘍を正確に分類する上での、調整された深層学習技術の可能性を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-14T15:34:22Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - Inter-slice Context Residual Learning for 3D Medical Image Segmentation [38.43650000401734]
本稿では,3次元医用画像の正確なセグメンテーションのための3次元コンテキスト残差ネットワーク(ConResNet)を提案する。
このモデルはエンコーダ、セグメンテーションデコーダ、コンテキスト残留デコーダで構成される。
提案したConResNetは,脳腫瘍セグメンテーションにおける上位6つの方法と膵腫瘍セグメンテーションにおける上位7つの方法より正確である。
論文 参考訳(メタデータ) (2020-11-28T16:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。