論文の概要: PASS:Test-Time Prompting to Adapt Styles and Semantic Shapes in Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2410.01573v1
- Date: Wed, 2 Oct 2024 14:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:54:49.218144
- Title: PASS:Test-Time Prompting to Adapt Styles and Semantic Shapes in Medical Image Segmentation
- Title(参考訳): PASS:医用画像分割におけるスタイルと意味的形状に適応するテストタイムプロンプト
- Authors: Chuyan Zhang, Hao Zheng, Xin You, Yefeng Zheng, Yun Gu,
- Abstract要約: テストタイム適応(TTA)は、医用画像のテスト時にドメインシフトを処理するための有望なパラダイムとして登場した。
本稿では2種類のプロンプトを共同で学習するPASS(Prompting to Adapt Styles and Semantic shapes)を提案する。
複数の医用画像セグメンテーションデータセットにおける最先端手法よりもPASSの方が優れた性能を示す。
- 参考スコア(独自算出の注目度): 25.419843931497965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time adaptation (TTA) has emerged as a promising paradigm to handle the domain shifts at test time for medical images from different institutions without using extra training data. However, existing TTA solutions for segmentation tasks suffer from (1) dependency on modifying the source training stage and access to source priors or (2) lack of emphasis on shape-related semantic knowledge that is crucial for segmentation tasks.Recent research on visual prompt learning achieves source-relaxed adaptation by extended parameter space but still neglects the full utilization of semantic features, thus motivating our work on knowledge-enriched deep prompt learning. Beyond the general concern of image style shifts, we reveal that shape variability is another crucial factor causing the performance drop. To address this issue, we propose a TTA framework called PASS (Prompting to Adapt Styles and Semantic shapes), which jointly learns two types of prompts: the input-space prompt to reformulate the style of the test image to fit into the pretrained model and the semantic-aware prompts to bridge high-level shape discrepancy across domains. Instead of naively imposing a fixed prompt, we introduce an input decorator to generate the self-regulating visual prompt conditioned on the input data. To retrieve the knowledge representations and customize target-specific shape prompts for each test sample, we propose a cross-attention prompt modulator, which performs interaction between target representations and an enriched shape prompt bank. Extensive experiments demonstrate the superior performance of PASS over state-of-the-art methods on multiple medical image segmentation datasets. The code is available at https://github.com/EndoluminalSurgicalVision-IMR/PASS.
- Abstract(参考訳): テストタイム適応(TTA)は、追加のトレーニングデータを用いることなく、異なる機関からの医療画像のテスト時にドメインシフトを処理するための有望なパラダイムとして登場した。
しかし, セグメンテーションタスクの既存のTTAソリューションは, (1) ソーストレーニング段階の変更や, (2) セグメンテーションタスクに不可欠な形状に関するセグメンテーション知識の欠如に悩まされている。
画像スタイルのシフトに対する一般的な懸念に加えて、形状の変動がパフォーマンス低下の原因となるもう一つの重要な要因であることも明らかにした。
この問題を解決するためにPASS(Prompting to Adapt Styles and Semantic shapes)と呼ばれるTTAフレームワークを提案する。このフレームワークは2種類のプロンプトを共同で学習する。
固定プロンプトを鼻で挿入する代わりに、入力データに条件付き自己制御視覚プロンプトを生成する入力デコレータを導入する。
そこで本研究では,各テストサンプルの知識表現を検索し,目標表現とリッチな形状プロンプトバンクとのインタラクションを行うクロスアテンション・プロンプト・モジュレータを提案する。
複数の医用画像セグメンテーションデータセットにおける最先端手法よりもPASSの方が優れた性能を示す。
コードはhttps://github.com/EndoluminalSurgicalVision-IMR/PASSで公開されている。
関連論文リスト
- Curriculum Prompting Foundation Models for Medical Image Segmentation [17.33821260899367]
医療画像のセグメンテーションにSAMのような、訓練済みの大規模な基礎モデルを適用することは、依然として大きな課題である。
過去の研究は各インスタンスの特定のタイプのプロンプトに大きく依存しており、理想的に正しいプロンプトのマニュアル入力を必要とする。
本稿では,原画像から得られた異なる粒度のプロンプトを利用して,より広範な臨床所見を提供することを提案する。
そこで我々は,異なるタイプのプロンプトを段階的に統合する,カリキュラムプロンプトと呼ばれる粗大な機構を設計した。
論文 参考訳(メタデータ) (2024-09-01T11:00:18Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation [14.71883381837561]
ドメイン間の分散シフトは、実世界のアプリケーションに事前訓練されたセマンティックセグメンテーションモデルをデプロイする上で重要な障害である。
テスト時間適応は、推論中にドメイン間の分布シフトに取り組むのに有効であることが証明されている。
本稿では,各テスト画像に対する特定のプロンプトをトレーニングし,バッチ正規化レイヤの統計値を調整するために,Visual Prompt-based Test-Time Adaptation (VPTTA)法を提案する。
論文 参考訳(メタデータ) (2023-11-30T09:03:47Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。