論文の概要: Align then Refine: Text-Guided 3D Prostate Lesion Segmentation
- arxiv url: http://arxiv.org/abs/2604.18713v1
- Date: Mon, 20 Apr 2026 18:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.406752
- Title: Align then Refine: Text-Guided 3D Prostate Lesion Segmentation
- Title(参考訳): テキストガイドによる3D前立腺病変の分離
- Authors: Cuiling Sun, Linkai Peng, Adam Murphy, Elif Keles, Hiten D. Patel, Ashley Ross, Frank Miller, Baris Turkbey, Andrea Mia Bejar, Halil Ertugrul Aktas, Gorkem Durak, Ulas Bagci,
- Abstract要約: 体積法は、解剖学的整合性を確保しながら複数のモードを組み合わせる必要がある。
現在のモデルは、クロスモーダル情報を確実に統合するのに苦労している。
3つの重要なイノベーションを取り入れた新しいマルチエンコーダU-Netアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.284052813431228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated 3D segmentation of prostate lesions from biparametric MRI (bp-MRI) is essential for reliable algorithmic analysis, but achieving high precision remains challenging. Volumetric methods must combine multiple modalities while ensuring anatomical consistency, but current models struggle to integrate cross-modal information reliably. While vision-language models (VLMs) are replacing the currently used architectural designs, they still lack the fine-grained, lesion-level semantics required for effective localized guidance. To address these limitations, we propose a new multi-encoder U-Net architecture incorporating three key innovations: (1) an alignment loss that enhances foreground text-image similarity to inject lesion semantics; (2) a heatmap loss that calibrates the similarity map and suppresses spurious background activations; and (3) a final-stage, confidence-gated multi-head cross-attention refiner that performs localized boundary edits in high-confidence regions. A phase-scheduled training regime stabilizes the optimization of these components. Our method consistently outperforms prior approaches, establishing a new state-of-the-art on the PI-CAI dataset through enhanced multi-modal fusion and localized text guidance. Our code is available at https://github.com/NUBagciLab/Prostate-Lesion-Segmentation.
- Abstract(参考訳): Biparametric MRI (bp-MRI) による前立腺病変の3次元自動分割は, 信頼性の高いアルゴリズム解析には不可欠であるが, 高精度化は依然として困難である。
体積法は、解剖学的整合性を確保しつつ複数のモードを組み合わせる必要があるが、現在のモデルは、クロスモーダル情報を確実に統合するのに苦労している。
視覚言語モデル(VLM)は、現在使用されているアーキテクチャ設計を置き換えるものであるが、効果的な局所化ガイダンスに必要な細粒度、病変レベルのセマンティクスはいまだに欠如している。
これらの制約に対処するため,(1)前景のテキストイメージの類似性を高めて病変のセマンティクスを注入するアライメントロス,(2)類似性マップを校正し,刺激的なバックグラウンドアクティベーションを抑えるヒートマップロス,(3)高信頼領域で局所的な境界編集を行う最終段階のマルチヘッドクロスアテンションリファクタ,という3つの重要な革新を取り入れたマルチエンコーダU-Netアーキテクチャを提案する。
位相スケジューリングトレーニングは、これらのコンポーネントの最適化を安定化させる。
提案手法は従来手法よりずっと優れており,マルチモーダル融合と局所テキストガイダンスの強化によりPI-CAIデータセットに新たな最先端技術が確立されている。
私たちのコードはhttps://github.com/NUBagciLab/Prostate-Lesion-Segmentationで公開しています。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - T3: Test-Time Model Merging in VLMs for Zero-Shot Medical Imaging Analysis [15.624549727053475]
既存のモデルマージ技術は、様々な医学的手段で一貫した利益をもたらすことができません。
サンプル単位の係数を計算するバックプロパゲーションフリーフレームワークであるTest-Time Task Adaptive merging (T3)を導入する。
ドメイン内、ベース・ツー・ノーベル、および4つのモダリティにまたがる汚職にまたがる厳密な相互評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-31T08:05:40Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - ReCoGNet: Recurrent Context-Guided Network for 3D MRI Prostate Segmentation [11.248082139905865]
アノテーション付きデータとしてMRIシーケンスをモデル化するハイブリッドアーキテクチャを提案する。
本手法では, 深層保存型DeepVLab3バックボーンを用いて, それぞれのMRIスライスから高レベルなセマンティック特徴を抽出し, コンブLSTM層で構築した再帰的畳み込みヘッドを用いて, スライス間の情報統合を行う。
現状の2D, 3Dセグメンテーションモデルと比較して, 精度, リコール, IoU, Dice similarity Coefficient (DSC) およびロバストネスの点で優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-24T14:56:55Z) - A Novel Convolutional-Free Method for 3D Medical Imaging Segmentation [0.0]
畳み込みニューラルネットワーク(CNN)がこの分野を支配し、3次元の医用画像セグメンテーションで大きな成功を収めている。
TransUNetやnnFormerのような最近のトランスフォーマーベースのモデルは、これらの制限に対処することを約束している。
本稿では,トランスアーキテクチャと自己認識機構に基づく,新しい完全畳み込みフリーモデルを提案する。
論文 参考訳(メタデータ) (2025-02-08T00:52:45Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。
その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-23T20:55:11Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。