Learning from Noisy Prompts: Saliency-Guided Prompt Distillation for Robust Segmentation with SAM
Abstractの概要
本論文は、ノイズの多い非タスク特化型プロンプトのみが利用可能な状況において、Segment Anything Model(SAM)を医用画像セグメンテーションに適応させるための2段階フレームワーク「Saliency-Guided Prompt Distillation(SPD)」を提案する。第1段階では、軽量な顕著性ヘッドをLoRA適応エンコーダ特徴量とともに学習し、正解マスクから解剖学的事前知識を獲得して、対象領域の妥当な位置を示す顕著性マップを生成する。第2段階では、Contextual Prompt Distillation(CPD)モジュールがローカルプロンプトを顕著性マップに対して検証し、隣接スライスからの交差検証済みプロンプトで情報を補強し、SAMデコーディング用のコンセンサスプロンプトセットを形成する。さらに、Pairwise Slice Consistency(PSC)損失により隣接スライス間の予測における解剖学的一貫性を強制する。本手法は、センターラインプロンプトを用いた実臨床の回腸末端データセットと、シミュレーションされたノイズプロンプトを用いた3つのデータセットを含む、4つのMRIおよびCTデータセットで評価されている。
新規性
主な新規性は、高品質なプロンプトを前提としたり、ノイズの多いマスクやラベルに対処するのではなく、SAMベースの医用画像セグメンテーションにおけるノイズの多いプロンプトに対するロバスト性を明示的に目指したフレームワークである点にある。主要な貢献は、顕著性に基づく解剖学的事前知識の学習、二重検証によるクロススライス文脈プロンプト蒸留メカニズム、および局所的なペアワイズスライス一貫性損失を組み合わせることで、信頼性の低い臨床プロンプトをコンセンサスガイダンスに変換する点にある。
成果
4つのデータセット(TI、Scar、FUMPE、KiTS)において、SPDはTI、Scar、FUMPEの全報告指標で全比較手法に対して統計的に有意な改善(p < 0.05、Wilcoxon符号順位検定)を達成し、KiTSでも最高スコアを記録した。TIデータセットでは、SPDはDSC 73.58、HD95 23.94を報告し、最良の競合手法と比較してDSCが11.08%向上、HD95が6.28低減した。アブレーション研究ではローカルプロンプト検証、CPD、PSCの各要素による段階的な性能向上が示され、ゼロショット実験ではコンセンサスプロンプトが凍結SAMの性能を全センターラインプロンプト使用時と比較してDSCで14.2%、IoUで13.6%改善することが実証された。
論文の注目点
- SPDは軽量ヘッドを用いて顕著性に基づく解剖学的事前知識を学習し、それを利用して現在のスライスのノイズプロンプトをフィルタリングするとともに隣接スライスからのプロンプトを交差検証し、SAMデコーディング前にコンセンサスプロンプトセットを形成する。
- 本手法は推論時のプロンプトが不完全である臨床的に現実的な設定を対象としており、回腸末端MRIにおける実際のセンターラインアノテーションと、3つの追加データセットにおけるシミュレーションされたノイズプロンプト(1つの真陽性点に加えて2〜5個のランダム点)で実証されている。
- 実験では、従来の教師あり学習ベースラインおよびSAMベースの適応手法の双方に対して、ほとんどのデータセットで統計的に有意な改善が示され、アブレーションによりローカルプロンプト検証、文脈プロンプト蒸留、ペアワイズスライス一貫性の各構成要素が全体的な性能向上に寄与していることが確認された。