Fugu-MT 論文翻訳(概要): Text-Promptable Propagation for Referring Medical Image Sequence Segmentation

論文の概要: Text-Promptable Propagation for Referring Medical Image Sequence Segmentation

arxiv url: http://arxiv.org/abs/2502.11093v2
Date: Sat, 12 Apr 2025 15:10:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 19:48:45.653661
Title: Text-Promptable Propagation for Referring Medical Image Sequence Segmentation
Title（参考訳）: 医用画像セグメント参照のためのテキストプロンプタブルプロパゲーション
Authors: Runtian Yuan, Mohan Chen, Jilan Xu, Ling Zhou, Qingqiu Li, Yuejie Zhang, Rui Feng, Tao Zhang, Shang Gao,
Abstract要約: Ref-MISSは、自然言語の記述に基づいて、医学画像の配列に解剖学的構造を分割することを目的としている。既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンスを通して興味のあるオブジェクトを明示的に追跡するのに苦労する。医用画像のシーケンスセグメンテーションを参照するためのモデルとして,テキスト・プロンプタブル・プロパゲーション(TPP)を提案する。
参考スコア（独自算出の注目度）: 20.724643106195852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring Medical Image Sequence Segmentation (Ref-MISS) is a novel and challenging task that aims to segment anatomical structures in medical image sequences (\emph{e.g.} endoscopy, ultrasound, CT, and MRI) based on natural language descriptions. This task holds significant clinical potential and offers a user-friendly advancement in medical imaging interpretation. Existing 2D and 3D segmentation models struggle to explicitly track objects of interest across medical image sequences, and lack support for nteractive, text-driven guidance. To address these limitations, we propose Text-Promptable Propagation (TPP), a model designed for referring medical image sequence segmentation. TPP captures the intrinsic relationships among sequential images along with their associated textual descriptions. Specifically, it enables the recognition of referred objects through cross-modal referring interaction, and maintains continuous tracking across the sequence via Transformer-based triple propagation, using text embeddings as queries. To support this task, we curate a large-scale benchmark, Ref-MISS-Bench, which covers 4 imaging modalities and 20 different organs and lesions. Experimental results on this benchmark demonstrate that TPP consistently outperforms state-of-the-art methods in both medical segmentation and referring video object segmentation.
Abstract（参考訳）: Referring Medical Image Sequence Segmentation (Ref-MISS)は、医学画像の内視鏡、超音波、CT、MRIにおける解剖学的構造を自然言語で記述することを目的とした、新しくて困難な課題である。本課題は,医療画像の解釈にユーザフレンドリーな進歩をもたらす,重要な臨床的可能性を秘めている。既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンス間で関心のあるオブジェクトを明示的に追跡するのに苦労する。これらの制約に対処するために,医療画像のシーケンスセグメンテーションを参照するためのモデルであるText-Promptable Propagation (TPP)を提案する。 TPPは、関連するテキスト記述とともに、シーケンシャルな画像間の本質的な関係をキャプチャする。具体的には、クロスモーダル参照インタラクションを通じて参照オブジェクトの認識を可能にし、テキスト埋め込みをクエリとして使用して、Transformerベースのトリプル伝搬を通じてシーケンス間の連続的なトラッキングを維持する。この課題を支援するために、大規模なベンチマークであるRef-MISS-Benchをキュレートし、4つの画像モダリティと20の異なる臓器と病変をカバーした。このベンチマーク実験の結果,TPPは医用セグメンテーションとビデオオブジェクトセグメンテーションの両方において,最先端の手法を一貫して上回っていることがわかった。

関連論文リスト

Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文参考訳（メタデータ） (2025-07-16T16:29:30Z)
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation [32.48945636401865]
CRoss-modal Interaction と Semantic Prompting をベースとした CRISP-SAM2 という新しいモデルを提案する。このモデルは、臓器のテキスト記述によって導かれる多臓器医療セグメンテーションへの有望なアプローチを示す。我々の手法は、視覚的およびテキスト的入力を相互に文脈化されたセマンティクスに変換することから始まる。
論文参考訳（メタデータ） (2025-06-29T07:05:27Z)
Multimodal Medical Image Binding via Shared Text Embeddings [15.873810726442603]
Multimodal Medical Image Binding with Text (Mtextsuperscript3Bind)は、医用画像モダリティのシームレスなアライメントを可能にする新しい事前トレーニングフレームワークである。 Mtextsuperscript3Bindの最初の微調整CLIPライクなイメージテキストモデルは、そのモダリティ固有のテキスト埋め込みスペースを調整する。 Mtextsuperscript3Bindは、ゼロショット、少数ショット分類およびクロスモーダル検索タスクにおいて、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-22T15:39:25Z)
MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。 1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文参考訳（メタデータ） (2025-06-12T08:13:38Z)
STPNet: Scale-aware Text Prompt Network for Medical Image Segmentation [8.812162673772459]
医用画像のセグメンテーションを強化するために視覚認識モデリングを利用するスケール言語テキストプロンプトネットワークを提案する。本手法では, 病変の局所化を誘導するために多スケールテキスト記述を用い, 検索・分節共同学習を採用している。我々は、COVID-Xray、COVID-CT、Kvasir-SEGの3つのデータセットに対するビジョン言語アプローチを評価した。
論文参考訳（メタデータ） (2025-04-02T10:01:42Z)
Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering [17.273290949721975]
既存の医用画像分割法は、画像やビデオなどの一様視覚入力に依存しており、労働集約的な手動アノテーションを必要とする。医用イメージング技術は、単一のスキャン内で複数の絡み合った臓器をキャプチャし、セグメンテーションの精度をさらに複雑にする。これらの課題に対処するため、MedSAMは画像特徴とユーザが提供するプロンプトを統合することでセグメンテーションの精度を高めるために開発された。
論文参考訳（メタデータ） (2025-03-18T01:35:34Z)
Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。 TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文参考訳（メタデータ） (2024-12-18T06:19:03Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues [11.856041847833666]
我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
論文参考訳（メタデータ） (2024-06-27T17:46:13Z)
CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation [11.087654014615955]
CATは,医学領域の知識に富んだ3Dクロップ画像から得られた解剖学的プロンプトとテクスチャ的プロンプトをコーディネートする革新的なモデルである。 10のパブリックCTデータセットからなるコンソーシアムでトレーニングされたCATは、複数のセグメンテーションタスクにおいて優れたパフォーマンスを示している。このアプローチは、マルチモーダルプロンプトのコーディネートが、医療領域における複雑なシナリオに対処するための有望な道であることを確認した。
論文参考訳（メタデータ） (2024-06-11T09:22:39Z)
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文参考訳（メタデータ） (2024-05-30T03:15:09Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文参考訳（メタデータ） (2024-03-19T17:57:24Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。 UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。 10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文参考訳（メタデータ） (2023-11-24T22:01:12Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)
Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文参考訳（メタデータ） (2020-03-23T14:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。