論文の概要: PPBoost: Progressive Prompt Boosting for Text-Driven Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2511.21984v1
- Date: Wed, 26 Nov 2025 23:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.332314
- Title: PPBoost: Progressive Prompt Boosting for Text-Driven Medical Image Segmentation
- Title(参考訳): PPBoost: テキスト駆動型医療画像セグメンテーションのためのプログレッシブプロンプトブースティング
- Authors: Xuchen Li, Hengrui Gu, Mohan Zhang, Qin Liu, Zhen Tan, Xinyuan Zhu, Huixue Zhou, Tianlong Chen, Kaixiong Zhou,
- Abstract要約: PPBoostは弱いテキスト由来の信号を強く、空間的に接地された視覚的プロンプトに変換する。
画像やピクセルレベルのセグメンテーションラベルを持たない厳格なゼロショット方式で動作する。
テキストや視覚的にプロンプトされたベースラインよりも、Diceと正規化されたSurface Distanceを一貫して改善する。
- 参考スコア(独自算出の注目度): 56.238478239463575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-prompted foundation models for medical image segmentation offer an intuitive way to delineate anatomical structures from natural language queries, but their predictions often lack spatial precision and degrade under domain shift. In contrast, visual-prompted models achieve strong segmentation performance across diverse modalities by leveraging spatial cues of precise bounding-box (bbox) prompts to guide the segmentation of target lesions. However, it is costly and challenging to obtain the precise visual prompts in clinical practice. We propose PPBoost (Progressive Prompt-Boosting), a framework that bridges these limitations by transforming weak text-derived signals into strong, spatially grounded visual prompts, operating under a strict zero-shot regime with no image- or pixel-level segmentation labels. PPBoost first uses a vision-language model to produce initial pseudo-bboxes conditioned on the textual object descriptions and applies an uncertainty-aware criterion to filter unreliable predictions. The retained image-bboxes pairs are then leveraged to train a pseudo-labeled detector, producing the high-quality bboxes for the query images. During inference, PPBoost further refines the generated bboxes by appropriately expanding them to tightly cover the target anatomical structures. The enhanced spatially-grounding bbox prompts guide existing segmentation models to generate final dense masks, effectively amplifying weak text cues into strong spatial guidance. Across three datasets spanning diverse modalities and anatomies, PPBoost consistently improves Dice and Normalized Surface Distance over text- and visual-prompted baselines and, notably, surpasses few-shot segmentation models without using labeled data. PPBoost can generalize to multiple typical visual segmentation model backbones.
- Abstract(参考訳): 医用画像セグメンテーションのためのテキストプロップされた基礎モデルは、自然言語クエリから解剖学的構造を記述するための直感的な方法を提供するが、それらの予測は、しばしば領域シフトの下で空間的精度と劣化を欠いている。
対照的に、視覚刺激型モデルは、正確な境界箱(bbox)の空間的手がかりを利用して、標的病変のセグメンテーションを導くことによって、多様なモードにわたって強力なセグメンテーション性能を達成する。
しかし、臨床実践において正確な視覚的プロンプトを得ることは費用がかかり難い。
PPBoost(Progressive Prompt-Boosting、プログレッシブ・プロンプト・ブースティング)は、弱いテキスト由来の信号を強い空間的に接地された視覚的プロンプトに変換し、画像やピクセルレベルのセグメンテーションラベルのない厳密なゼロショット方式の下で動作させることにより、これらの制限をブリッジするフレームワークである。
PPBoostはまず視覚言語モデルを使用して、テキストオブジェクト記述に条件付き初期擬似ボックスを生成し、信頼できない予測をフィルタリングするために不確実性認識基準を適用した。
保持された画像-ボックスペアは、擬似ラベル付き検出器を訓練するために利用され、クエリ画像の高品質なbboxを生成する。
推測中、PPBoostは、ターゲットの解剖学的構造をしっかりと覆うように適切に拡張することで、生成されたbboxをさらに洗練する。
拡張された空間的接地ボックスは、既存のセグメンテーションモデルに最終密集マスクを生成するよう促し、弱いテキストキューを強力な空間誘導に効果的に増幅する。
さまざまなモダリティや解剖学にまたがる3つのデータセットにわたって、PPBoostは、テキストや視覚的にプロンプトされたベースラインよりも、Diceと正規化されたSurface Distanceを一貫して改善し、特にラベル付きデータを使用しずに、数ショットのセグメンテーションモデルを超えている。
PPBoostは、複数の典型的な視覚的セグメンテーションモデルバックボーンに一般化することができる。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation [16.64056234334767]
Open-vocabulary semantic segmentationは、画像をピクセルレベルで異なる意味領域に分割することを目的としている。
現在の方法は、CLIPのような訓練済みの視覚言語モデルのテキスト埋め込みを利用する。
本稿では,この課題に対する二重プロンプトフレームワークDPSegを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:25:42Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.590853105242864]
視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。
Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリにおけるモデルの一般化を改善するために共同で使用される。
15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2025-03-13T06:05:35Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。