論文の概要: Text-promptable Propagation for Referring Medical Image Sequence Segmentation
- arxiv url: http://arxiv.org/abs/2502.11093v1
- Date: Sun, 16 Feb 2025 12:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.838785
- Title: Text-promptable Propagation for Referring Medical Image Sequence Segmentation
- Title(参考訳): 医用画像シークエンスセグメンテーションのテキスト・プロンプタブル・プロパゲーション
- Authors: Runtian Yuan, Jilan Xu, Mohan Chen, Qingqiu Li, Yuejie Zhang, Rui Feng, Tao Zhang, Shang Gao,
- Abstract要約: Referring Medical Image Sequenceは、医療用テキストプロンプトに対応する解剖学的実体を分類することを目的としている。
TPPは、クロスモーダルなプロンプト融合に基づく任意の対象のセグメンテーションをサポートする。
4つのモダリティと20の異なる臓器と病変を網羅した,大規模で包括的なベンチマークを作成した。
- 参考スコア(独自算出の注目度): 18.633874947279168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image sequences, generated by both 2D video-based examinations and 3D imaging techniques, consist of sequential frames or slices that capture the same anatomical entities (e.g., organs or lesions) from multiple perspectives. Existing segmentation studies typically process medical images using either 2D or 3D methods in isolation, often overlooking the inherent consistencies among these images. Additionally, interactive segmentation, while highly beneficial in clinical scenarios, faces the challenge of integrating text prompts effectively across multi-modalities. To address these issues, we introduce an innovative task, Referring Medical Image Sequence Segmentation for the first time, which aims to segment the referred anatomical entities corresponding to medical text prompts. We develop a strong baseline model, Text-Promptable Propagation (TPP), designed to exploit the intrinsic relationships among sequential images and their associated textual descriptions. TPP supports the segmentation of arbitrary objects of interest based on cross-modal prompt fusion. Carefully designed medical prompts are fused and employed as queries to guide image sequence segmentation through triple-propagation. We curate a large and comprehensive benchmark covering 4 modalities and 20 different organs and lesions. Experimental results consistently demonstrate the superior performance of our approach compared to previous methods across these datasets.
- Abstract(参考訳): 2Dビデオベースの検査と3D画像技術の両方によって生成される医用画像シーケンスは、複数の視点から同じ解剖学的実体(例えば臓器や病変)を捉えるシーケンシャルフレームまたはスライスで構成されている。
既存のセグメンテーション研究は通常、2D法または3D法のいずれかを分離して医療画像を処理する。
さらに、インタラクティブなセグメンテーションは、臨床シナリオにおいて非常に有益であるが、複数のモダリティに効率的にテキストプロンプトを統合するという課題に直面している。
これらの課題に対処するために,医用画像シーケンスセグメンテーションを初めて参照するイノベーティブなタスクを導入する。
本研究では,逐次的画像と関連するテキスト記述の内在的関係を活用するために,強力なベースラインモデルであるText-Promptable Propagation (TPP)を開発した。
TPPは、クロスモーダルなプロンプト融合に基づく任意の対象のセグメンテーションをサポートする。
慎重に設計された医療プロンプトは融合され、トリプルプロパゲーションを通して画像シーケンスのセグメンテーションをガイドするためのクエリとして使用される。
4つのモダリティと20の異なる臓器と病変を網羅した,大規模で包括的なベンチマークを作成した。
実験結果は、これらのデータセットをまたいだ従来の手法と比較して、我々のアプローチの優れた性能を一貫して示している。
関連論文リスト
- STPNet: Scale-aware Text Prompt Network for Medical Image Segmentation [8.812162673772459]
医用画像のセグメンテーションを強化するために視覚認識モデリングを利用するスケール言語テキストプロンプトネットワークを提案する。
本手法では, 病変の局所化を誘導するために多スケールテキスト記述を用い, 検索・分節共同学習を採用している。
我々は、COVID-Xray、COVID-CT、Kvasir-SEGの3つのデータセットに対するビジョン言語アプローチを評価した。
論文 参考訳(メタデータ) (2025-04-02T10:01:42Z) - Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering [17.273290949721975]
既存の医用画像分割法は、画像やビデオなどの一様視覚入力に依存しており、労働集約的な手動アノテーションを必要とする。
医用イメージング技術は、単一のスキャン内で複数の絡み合った臓器をキャプチャし、セグメンテーションの精度をさらに複雑にする。
これらの課題に対処するため、MedSAMは画像特徴とユーザが提供するプロンプトを統合することでセグメンテーションの精度を高めるために開発された。
論文 参考訳(メタデータ) (2025-03-18T01:35:34Z) - Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues [11.856041847833666]
我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。
大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
論文 参考訳(メタデータ) (2024-06-27T17:46:13Z) - CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation [11.087654014615955]
CATは,医学領域の知識に富んだ3Dクロップ画像から得られた解剖学的プロンプトとテクスチャ的プロンプトをコーディネートする革新的なモデルである。
10のパブリックCTデータセットからなるコンソーシアムでトレーニングされたCATは、複数のセグメンテーションタスクにおいて優れたパフォーマンスを示している。
このアプローチは、マルチモーダルプロンプトのコーディネートが、医療領域における複雑なシナリオに対処するための有望な道であることを確認した。
論文 参考訳(メタデータ) (2024-06-11T09:22:39Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。