論文の概要: Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation
- arxiv url: http://arxiv.org/abs/2507.11055v1
- Date: Tue, 15 Jul 2025 07:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.017896
- Title: Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation
- Title(参考訳): プロトタイプ駆動セマンティック近似による医療用言語誘導セグメンテーションにおけるテキスト信頼性の緩和
- Authors: Shuchang Ye, Usman Naseem, Mingyuan Meng, Jinman Kim,
- Abstract要約: ProLearnは、言語誘導セグメンテーションのためのプロトタイプ駆動学習フレームワークである。
テキスト入力からのセマンティックガイダンスの近似を可能にする新しいプロトタイプ駆動セマンティック近似(PSA)モジュールを提案する。
ProLearnは、制限されたテキストが利用できる場合、最先端の言語誘導メソッドより優れている。
- 参考スコア(独自算出の注目度): 11.540847583052381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical language-guided segmentation, integrating textual clinical reports as auxiliary guidance to enhance image segmentation, has demonstrated significant improvements over unimodal approaches. However, its inherent reliance on paired image-text input, which we refer to as ``textual reliance", presents two fundamental limitations: 1) many medical segmentation datasets lack paired reports, leaving a substantial portion of image-only data underutilized for training; and 2) inference is limited to retrospective analysis of cases with paired reports, limiting its applicability in most clinical scenarios where segmentation typically precedes reporting. To address these limitations, we propose ProLearn, the first Prototype-driven Learning framework for language-guided segmentation that fundamentally alleviates textual reliance. At its core, in ProLearn, we introduce a novel Prototype-driven Semantic Approximation (PSA) module to enable approximation of semantic guidance from textual input. PSA initializes a discrete and compact prototype space by distilling segmentation-relevant semantics from textual reports. Once initialized, it supports a query-and-respond mechanism which approximates semantic guidance for images without textual input, thereby alleviating textual reliance. Extensive experiments on QaTa-COV19, MosMedData+ and Kvasir-SEG demonstrate that ProLearn outperforms state-of-the-art language-guided methods when limited text is available.
- Abstract(参考訳): 医用言語誘導セグメンテーションは,画像セグメンテーションを強化する補助的ガイダンスとしてテキスト臨床報告を統合し,一助的アプローチよりも顕著に改善されている。
しかし、"`textual reliance"と呼ばれるペア画像テキスト入力に固有の依存は、以下の2つの基本的な制限を提示する。
1)多くの医用セグメンテーションデータセットは、ペアレポートを欠き、画像のみのデータの大部分を訓練に未使用のまま残している。
2) 症例の振り返り分析に限定し, セグメンテーションが報告に先行するほとんどの臨床シナリオで適用可能性を制限する。
これらの制約に対処するために,テキスト依存を根本的に緩和する言語誘導セグメンテーションのための最初のプロトタイプ駆動学習フレームワークであるProLearnを提案する。
ProLearnでは、テキスト入力からのセマンティックガイダンスの近似を可能にする新しいプロトタイプ駆動セマンティック近似(PSA)モジュールを導入する。
PSAは、テキストレポートからセグメンテーション関連セマンティクスを蒸留することで、離散的でコンパクトなプロトタイプ空間を初期化する。
一度初期化されると、テキスト入力なしで画像のセマンティックガイダンスを近似するクエリ・アンド・レスポンシブ・メカニズムをサポートし、それによってテキスト依存を緩和する。
QaTa-COV19、MosMedData+、Kvasir-SEGの大規模な実験により、ProLearnは、限られたテキストが利用できる場合に最先端の言語誘導メソッドより優れていることが示された。
関連論文リスト
- Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。
半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。
我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文 参考訳(メタデータ) (2025-07-16T16:29:30Z) - STPNet: Scale-aware Text Prompt Network for Medical Image Segmentation [8.812162673772459]
医用画像のセグメンテーションを強化するために視覚認識モデリングを利用するスケール言語テキストプロンプトネットワークを提案する。
本手法では, 病変の局所化を誘導するために多スケールテキスト記述を用い, 検索・分節共同学習を採用している。
我々は、COVID-Xray、COVID-CT、Kvasir-SEGの3つのデータセットに対するビジョン言語アプローチを評価した。
論文 参考訳(メタデータ) (2025-04-02T10:01:42Z) - Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images [30.673958586581904]
フリーフォームなテキストプロンプトを処理する新しい医用画像セグメンテーションモデルであるFLanSを紹介する。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-10-02T16:34:32Z) - SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。
本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。
我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文 参考訳(メタデータ) (2024-09-07T08:16:00Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文 参考訳(メタデータ) (2023-10-11T10:12:43Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - PCA: Semi-supervised Segmentation with Patch Confidence Adversarial
Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。
PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。
本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文 参考訳(メタデータ) (2022-07-24T07:45:47Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。