論文の概要: CDPDNet: Integrating Text Guidance with Hybrid Vision Encoders for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.18958v1
- Date: Sun, 25 May 2025 03:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.782145
- Title: CDPDNet: Integrating Text Guidance with Hybrid Vision Encoders for Medical Image Segmentation
- Title(参考訳): CDPDNet:医療画像セグメンテーションのためのハイブリッドビジョンエンコーダとテキストガイダンスの統合
- Authors: Jiong Wu, Yang Xing, Boxiao Yu, Wei Shao, Kuang Gong,
- Abstract要約: ほとんどの医用セグメンテーションデータセットは部分的にラベル付けされているだけである。
本研究では,CLIP-DINO Prompt-Driven Network (CDPDNet)を提案する。
CDPDNetは、セルフ教師付きビジョントランスフォーマーとCLIPベースのテキスト埋め込みを組み合わせることで、これらの課題に対処するためにタスク固有のテキストプロンプトを導入している。
- 参考スコア(独自算出の注目度): 8.56773843063124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most publicly available medical segmentation datasets are only partially labeled, with annotations provided for a subset of anatomical structures. When multiple datasets are combined for training, this incomplete annotation poses challenges, as it limits the model's ability to learn shared anatomical representations among datasets. Furthermore, vision-only frameworks often fail to capture complex anatomical relationships and task-specific distinctions, leading to reduced segmentation accuracy and poor generalizability to unseen datasets. In this study, we proposed a novel CLIP-DINO Prompt-Driven Segmentation Network (CDPDNet), which combined a self-supervised vision transformer with CLIP-based text embedding and introduced task-specific text prompts to tackle these challenges. Specifically, the framework was constructed upon a convolutional neural network (CNN) and incorporated DINOv2 to extract both fine-grained and global visual features, which were then fused using a multi-head cross-attention module to overcome the limited long-range modeling capability of CNNs. In addition, CLIP-derived text embeddings were projected into the visual space to help model complex relationships among organs and tumors. To further address the partial label challenge and enhance inter-task discriminative capability, a Text-based Task Prompt Generation (TTPG) module that generated task-specific prompts was designed to guide the segmentation. Extensive experiments on multiple medical imaging datasets demonstrated that CDPDNet consistently outperformed existing state-of-the-art segmentation methods. Code and pretrained model are available at: https://github.com/wujiong-hub/CDPDNet.git.
- Abstract(参考訳): ほとんどの医用セグメンテーションデータセットは部分的にラベル付けされており、解剖学的構造のサブセットとしてアノテーションが提供されている。
トレーニングのために複数のデータセットを組み合わせると、この不完全なアノテーションはデータセット間の共有解剖学的表現を学習するモデルの能力を制限するため、課題を引き起こす。
さらに、視覚のみのフレームワークは複雑な解剖学的関係やタスク固有の区別を捉えることができず、セグメント化の精度が低下し、目に見えないデータセットに対する一般化性が低下する。
本研究では,CLIP-DINO Prompt-Driven Segmentation Network (CDPDNet)を提案する。
具体的には、このフレームワークは畳み込みニューラルネットワーク(CNN)上に構築され、細粒度とグローバルな視覚特徴の両方を抽出するためにDINOv2を組み込んだ。
さらに、CLIP由来のテキスト埋め込みは、臓器と腫瘍の間の複雑な関係をモデル化するために視覚空間に投影された。
タスク固有のプロンプトを生成するテキストベースのタスクプロンプト生成(TTPG)モジュールがセグメンテーションのガイドとして設計された。
複数の医療画像データセットに対する大規模な実験により、CDPDNetは既存の最先端セグメンテーション手法を一貫して上回った。
コードと事前訓練されたモデルは、https://github.com/wujiong-hub/CDPDNet.git.comで入手できる。
関連論文リスト
- Domain and Task-Focused Example Selection for Data-Efficient Contrastive Medical Image Segmentation [0.2765106384328772]
医用画像セグメンテーションのための自己教師型コントラスト学習フレームワークであるPolyCLを提案する。
PolyCLは、革新的なサロゲートからのセグメンテーションに有用なコンテキスト対応の識別機能を学習し、伝達する。
PolyCLは、低データとクロスドメインの両方のシナリオにおいて、完全な教師付きベースラインと自己教師付きベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-05-25T16:11:48Z) - CENet: Context Enhancement Network for Medical Image Segmentation [3.4690322157094573]
本稿では,2つの重要なイノベーションを特徴とする新しいセグメンテーションフレームワークであるCENetを提案する。
まず、スキップ接続に統合されたDual Selective Enhancement Block(DSEB)は境界の詳細を高め、コンテキスト対応で小さな臓器の検出を改善する。
第二に、デコーダのContext Feature Attention Module (CFAM)は、空間的整合性を維持し、特徴の冗長性を低減し、過剰に拡張された表現を緩和するために、マルチスケールの設計を採用している。
論文 参考訳(メタデータ) (2025-05-23T23:22:18Z) - Rethinking Boundary Detection in Deep Learning-Based Medical Image Segmentation [29.37619692272332]
本稿では、畳み込みニューラルネットワーク(CNN)モデル、ビジョントランスフォーマー(ViT)モデル、明示的なエッジ検出演算子を組み合わせた、CTOという新しいネットワークアーキテクチャを提案する。
CTOはセグメンテーションの精度で既存のメソッドを超え、精度と効率のバランスを良くする。
7つの挑戦的な医用画像セグメンテーションデータセットで実施した広範な実験を通じて、CTOのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-05-06T19:42:56Z) - CLIP-TNseg: A Multi-Modal Hybrid Framework for Thyroid Nodule Segmentation in Ultrasound Images [10.926065365983886]
超音波画像における甲状腺結節分節は正確な診断と治療計画に不可欠である。
既存の手法は、セグメンテーションの精度、解釈可能性、一般化の課題に直面しており、それらの性能を妨げている。
この記事では、ニューラルネットワークアーキテクチャにマルチモーダルな大モデルを統合することにより、これらの問題に対処する新しいフレームワークであるCLIP-TNsegを提案する。
論文 参考訳(メタデータ) (2024-12-07T04:10:37Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。
マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。
In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文 参考訳(メタデータ) (2024-04-18T17:32:32Z) - Learning from partially labeled data for multi-organ and tumor
segmentation [102.55303521877933]
本稿では,トランスフォーマーに基づく動的オンデマンドネットワーク(TransDoDNet)を提案する。
動的ヘッドにより、ネットワークは複数のセグメンテーションタスクを柔軟に達成することができる。
我々はMOTSと呼ばれる大規模にラベル付けされたMulti-Organ and tumorベンチマークを作成し、他の競合相手よりもTransDoDNetの方が優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-13T13:03:09Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Towards Robust Partially Supervised Multi-Structure Medical Image
Segmentation on Small-Scale Data [123.03252888189546]
データ不足下における部分教師付き学習(PSL)における方法論的ギャップを埋めるために,不確実性下でのビシナルラベル(VLUU)を提案する。
マルチタスク学習とヴィジナルリスク最小化によって動機づけられたVLUUは、ビジナルラベルを生成することによって、部分的に教師付き問題を完全な教師付き問題に変換する。
本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-11-28T16:31:00Z) - DoDNet: Learning to segment multi-organ and tumors from multiple
partially labeled datasets [102.55303521877933]
本稿では,複数の臓器と腫瘍を部分的にラベル付けしたデータセット上に分割する動的オンデマンドネットワーク(DoDNet)を提案する。
DoDNetは共有エンコーダデコーダアーキテクチャ、タスク符号化モジュール、動的畳み込みフィルタを生成するコントローラ、そして単一だが動的セグメンテーションヘッドで構成されている。
論文 参考訳(メタデータ) (2020-11-20T04:56:39Z) - Boundary-aware Context Neural Network for Medical Image Segmentation [15.585851505721433]
医用画像のセグメンテーションは、さらなる臨床分析と疾患診断のための信頼性の高い基盤を提供することができる。
既存のCNNベースのほとんどの手法は、正確なオブジェクト境界のない不満足なセグメンテーションマスクを生成する。
本稿では,2次元医用画像分割のための境界認識コンテキストニューラルネットワーク(BA-Net)を定式化する。
論文 参考訳(メタデータ) (2020-05-03T02:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。