論文の概要: Text-Promptable Propagation for Referring Medical Image Sequence Segmentation
- arxiv url: http://arxiv.org/abs/2502.11093v2
- Date: Sat, 12 Apr 2025 15:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:45:18.082078
- Title: Text-Promptable Propagation for Referring Medical Image Sequence Segmentation
- Title(参考訳): 医用画像セグメント参照のためのテキストプロンプタブルプロパゲーション
- Authors: Runtian Yuan, Mohan Chen, Jilan Xu, Ling Zhou, Qingqiu Li, Yuejie Zhang, Rui Feng, Tao Zhang, Shang Gao,
- Abstract要約: Ref-MISSは、自然言語の記述に基づいて、医学画像の配列に解剖学的構造を分割することを目的としている。
既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンスを通して興味のあるオブジェクトを明示的に追跡するのに苦労する。
医用画像のシーケンスセグメンテーションを参照するためのモデルとして,テキスト・プロンプタブル・プロパゲーション(TPP)を提案する。
- 参考スコア(独自算出の注目度): 20.724643106195852
- License:
- Abstract: Referring Medical Image Sequence Segmentation (Ref-MISS) is a novel and challenging task that aims to segment anatomical structures in medical image sequences (\emph{e.g.} endoscopy, ultrasound, CT, and MRI) based on natural language descriptions. This task holds significant clinical potential and offers a user-friendly advancement in medical imaging interpretation. Existing 2D and 3D segmentation models struggle to explicitly track objects of interest across medical image sequences, and lack support for nteractive, text-driven guidance. To address these limitations, we propose Text-Promptable Propagation (TPP), a model designed for referring medical image sequence segmentation. TPP captures the intrinsic relationships among sequential images along with their associated textual descriptions. Specifically, it enables the recognition of referred objects through cross-modal referring interaction, and maintains continuous tracking across the sequence via Transformer-based triple propagation, using text embeddings as queries. To support this task, we curate a large-scale benchmark, Ref-MISS-Bench, which covers 4 imaging modalities and 20 different organs and lesions. Experimental results on this benchmark demonstrate that TPP consistently outperforms state-of-the-art methods in both medical segmentation and referring video object segmentation.
- Abstract(参考訳): Referring Medical Image Sequence Segmentation (Ref-MISS)は、医学画像の内視鏡、超音波、CT、MRIにおける解剖学的構造を自然言語で記述することを目的とした、新しくて困難な課題である。
本課題は,医療画像の解釈にユーザフレンドリーな進歩をもたらす,重要な臨床的可能性を秘めている。
既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンス間で関心のあるオブジェクトを明示的に追跡するのに苦労する。
これらの制約に対処するために,医療画像のシーケンスセグメンテーションを参照するためのモデルであるText-Promptable Propagation (TPP)を提案する。
TPPは、関連するテキスト記述とともに、シーケンシャルな画像間の本質的な関係をキャプチャする。
具体的には、クロスモーダル参照インタラクションを通じて参照オブジェクトの認識を可能にし、テキスト埋め込みをクエリとして使用して、Transformerベースのトリプル伝搬を通じてシーケンス間の連続的なトラッキングを維持する。
この課題を支援するために、大規模なベンチマークであるRef-MISS-Benchをキュレートし、4つの画像モダリティと20の異なる臓器と病変をカバーした。
このベンチマーク実験の結果,TPPは医用セグメンテーションとビデオオブジェクトセグメンテーションの両方において,最先端の手法を一貫して上回っていることがわかった。
関連論文リスト
- Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues [11.856041847833666]
我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。
大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
論文 参考訳(メタデータ) (2024-06-27T17:46:13Z) - CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation [11.087654014615955]
CATは,医学領域の知識に富んだ3Dクロップ画像から得られた解剖学的プロンプトとテクスチャ的プロンプトをコーディネートする革新的なモデルである。
10のパブリックCTデータセットからなるコンソーシアムでトレーニングされたCATは、複数のセグメンテーションタスクにおいて優れたパフォーマンスを示している。
このアプローチは、マルチモーダルプロンプトのコーディネートが、医療領域における複雑なシナリオに対処するための有望な道であることを確認した。
論文 参考訳(メタデータ) (2024-06-11T09:22:39Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - JSSR: A Joint Synthesis, Segmentation, and Registration System for 3D
Multi-Modal Image Alignment of Large-scale Pathological CT Scans [27.180136688977512]
本稿では,エンドツーエンドの3D畳み込みニューラルネットワークに基づく新しいマルチタスク学習システムJSSRを提案する。
システムは、教師なしの方法で異なるタスク間の暗黙の制約を満たすように最適化されている。
従来型のマルチモーダル登録法よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-05-25T16:30:02Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。