論文の概要: TextDiffSeg: Text-guided Latent Diffusion Model for 3d Medical Images Segmentation
- arxiv url: http://arxiv.org/abs/2504.11825v1
- Date: Wed, 16 Apr 2025 07:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:38:46.693156
- Title: TextDiffSeg: Text-guided Latent Diffusion Model for 3d Medical Images Segmentation
- Title(参考訳): TextDiffSeg:3次元医用画像分割のためのテキスト誘導潜在拡散モデル
- Authors: Kangbo Ma,
- Abstract要約: テキスト誘導拡散モデルフレームワークであるTextDiffSegは、3Dボリュームデータを自然言語記述と統合する。
複雑な解剖構造を認識するモデルの能力を高めることで、TextDiffSegは革新的なラベル埋め込み技術を取り入れている。
実験の結果、TextDiffSegは腎臓と膵腫瘍を含む分節作業において、既存の方法よりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Diffusion Probabilistic Models (DPMs) have demonstrated significant potential in 3D medical image segmentation tasks. However, their high computational cost and inability to fully capture global 3D contextual information limit their practical applications. To address these challenges, we propose a novel text-guided diffusion model framework, TextDiffSeg. This method leverages a conditional diffusion framework that integrates 3D volumetric data with natural language descriptions, enabling cross-modal embedding and establishing a shared semantic space between visual and textual modalities. By enhancing the model's ability to recognize complex anatomical structures, TextDiffSeg incorporates innovative label embedding techniques and cross-modal attention mechanisms, effectively reducing computational complexity while preserving global 3D contextual integrity. Experimental results demonstrate that TextDiffSeg consistently outperforms existing methods in segmentation tasks involving kidney and pancreas tumors, as well as multi-organ segmentation scenarios. Ablation studies further validate the effectiveness of key components, highlighting the synergistic interaction between text fusion, image feature extractor, and label encoder. TextDiffSeg provides an efficient and accurate solution for 3D medical image segmentation, showcasing its broad applicability in clinical diagnosis and treatment planning.
- Abstract(参考訳): 拡散確率モデル (DPM) は, 3次元画像分割作業において有意な可能性を示した。
しかし、その計算コストが高く、グローバルな3Dコンテキスト情報をフルに取得できないため、実用的利用は制限される。
これらの課題に対処するために,テキスト誘導拡散モデルフレームワークTextDiffSegを提案する。
本手法は,3次元ボリュームデータと自然言語記述を融合した条件付き拡散フレームワークを活用し,モーダル間埋め込みを実現し,視覚的・テキスト的モダリティ間の共有意味空間を確立する。
複雑な解剖構造を認識するモデルの能力を強化することで、TextDiffSegは革新的なラベル埋め込み技術と相互注意機構を導入し、グローバルな3Dコンテキスト整合性を維持しながら、計算複雑性を効果的に低減する。
実験の結果、TextDiffSegは腎臓や膵腫瘍を含むセグメンテーションタスクや、複数臓器セグメンテーションシナリオにおいて、既存の手法を一貫して上回っていることが明らかとなった。
アブレーション研究はキーコンポーネントの有効性をさらに検証し、テキスト融合、画像特徴抽出器、ラベルエンコーダの相乗的相互作用を強調した。
TextDiffSegは、3D画像分割のための効率的で正確なソリューションを提供する。
関連論文リスト
- Text-Promptable Propagation for Referring Medical Image Sequence Segmentation [20.724643106195852]
Ref-MISSは、自然言語の記述に基づいて、医学画像の配列に解剖学的構造を分割することを目的としている。
既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンスを通して興味のあるオブジェクトを明示的に追跡するのに苦労する。
医用画像のシーケンスセグメンテーションを参照するためのモデルとして,テキスト・プロンプタブル・プロパゲーション(TPP)を提案する。
論文 参考訳(メタデータ) (2025-02-16T12:13:11Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images [22.455833806331384]
本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
現在の最先端のアプローチは、低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。
論文 参考訳(メタデータ) (2023-10-05T14:16:22Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - A unified 3D framework for Organs at Risk Localization and Segmentation
for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする
本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。
提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文 参考訳(メタデータ) (2022-03-01T17:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。