Fugu-MT 論文翻訳(概要): Exploring Prompt Alignment with Clinical Factors in Zero-Shot Segmentation VLMs for NSCLC Tumor Segmentation

論文の概要: Exploring Prompt Alignment with Clinical Factors in Zero-Shot Segmentation VLMs for NSCLC Tumor Segmentation

arxiv url: http://arxiv.org/abs/2605.01266v1
Date: Sat, 02 May 2026 05:49:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.675828
Title: Exploring Prompt Alignment with Clinical Factors in Zero-Shot Segmentation VLMs for NSCLC Tumor Segmentation
Title（参考訳）: NSCLC腫瘍分節に対するゼロショット分節VLMの臨床像とプロンプトアライメントの検討
Authors: Suraj Pai, Thibault Heintz, Cosmin Ciausu, Marion Tonneau, Hugo Aerts, Raymond Mak,
Abstract要約: ゼロショット視覚言語モデル (Zero-shot Vision-Language Model, VLMs) は、腫瘍容積のデライン化のためのタスク特化トレーニングに代わる、迅速な代替手段を提供する。我々は,VoxTell内腫瘍データセットのアライメント方向について検討した。アライメント分析により、解剖学的位置がVoxTellの空間的注意の主役であることが判明した。
参考スコア（独自算出の注目度）: 0.05597620745943382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot vision-language models (VLMs) offer a promptable alternative to task-specific training for gross tumor volume (GTV) delineation in non-small-cell lung cancer (NSCLC), but the prompt dimensions that govern their spatial behavior remain poorly understood. We study this question by probing alignment directions in VoxTell on a held-out internal NSCLC tumor dataset through sub-prompt decomposition into diagnosis, demographic, staging, anatomical, generic, and irrelevant controls; attribute-wise perturbation robustness; specificity ladders; and cross-case prompt swaps, while benchmarking against fine-tuned and zero-shot baselines using the Dice Similarity Coefficient (DSC) with Wilcoxon signed-rank tests and Benjamini-Hochberg correction. Alignment analyses revealed that anatomical location is the dominant driver of VoxTell's spatial attention: 63.4 percent of location perturbations caused catastrophic drops, prompt specificity improved from generic to full descriptions except for diagnosis-only prompts, irrelevant prompts correctly yielded zero segmentation, and cross-case prompt swaps confirmed patient-specific conditioning (matched DSC 0.906 vs. mismatched 0.406). Histology and stage substitutions had minimal effect, indicating that the model prioritizes "where to look" over "what to look for." In this context, VoxTell, operating fully zero-shot, achieved a mean DSC of 0.613, statistically indistinguishable from nnUNet (0.690, adjusted p = 0.156) and Ahmed et al. (0.675, adjusted p = 0.679), while significantly outperforming all other zero-shot models. Together, these findings argue that segmentation VLMs should be evaluated not only by Dice, but also by the prompt dimensions to which they align.
Abstract（参考訳）: ゼロショット視覚言語モデル (VLM) は非小細胞肺癌 (NSCLC) におけるGTV(Grog tumor volume) Delineation (GTV) Delineation に対するタスク特異的トレーニングの迅速な代替手段を提供するが、それらの空間的振る舞いを規定する素早い次元はいまだよく理解されていない。我々は,VoxTellにおけるアライメントの方向を,サブプロンプト分解(サブプロンプト分解,人口統計,ステージング,解剖学,ジェネリック,および無関係制御,属性的摂動堅牢性,特異性ラダース,クロスケース・プロンプトスワップスワップ),およびウィルコクソンのサインランク試験とBenjamini-Hochberg補正によるDice similarity Coefficient(DSC)を用いた微調整およびゼロショットベースラインに対するベンチマークを行い検討した。解剖学的位置は、VoxTellの空間的注意の主役であることが明らかとなった: 63.4%の場所摂動が破滅的な低下を引き起こし、診断のみのプロンプトを除いて、素早い特異性は一般的なものから完全な記述に改善され、無関係なプロンプトは正しくゼロセグメンテーションが得られ、クロスケースプロンプトは、確認された患者固有の条件(DSC 0.906 vs. mismatched 0.406)を置き換えた。歴史学とステージ置換は最小限の効果を有しており、モデルが「探すもの」よりも「探す場所」を優先していることを示している。この文脈では、完全なゼロショットを運用しているVoxTell は平均 DSC 0.613 を達成し、統計学的に nnUNet (0.690, adjusted p = 0.156) と Ahmed et al (0.675, adjusted p = 0.679) と区別できなくなった。これらの結果は、分割 VLM はDice だけでなく、それらが整列する素早い次元によっても評価されるべきであると主張している。

関連論文リスト

MedDialBench: Benchmarking LLM Diagnostic Robustness under Parametric Adversarial Patient Behaviors [3.346370180968566]
MedDialBenchは、患者個々の行動次元が診断の堅牢性にどのように影響するかを制御し、量的応答で評価できるベンチマークである。患者の行動は、論理的一貫性、健康認知、表現スタイル、開示、態度の5つの次元に分解される。この制御された因子設計により、感度解析、線量応答プロファイリング、およびクロス次元相互作用検出が可能となる。
論文参考訳（メタデータ） (2026-04-08T09:09:08Z)
A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces [3.9313804276175506]
脳小血管疾患(CSVD)マーカー,特にEPVSとlacunaeは,医用画像解析においてユニークな課題である。本稿では,Zero-Gated CrossTask Attention が高密度EPVSコンテキストを利用してスパースラグーン検出を誘導する形態分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-04T16:30:46Z)
A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment [0.0]
本稿では,ローカライザとセグメンタを統合した検出ゲートパイプラインを提案する。パイプラインはGIRAFEとBAGLSベンチマークで最先端の一貫性を達成した。
論文参考訳（メタデータ） (2026-03-02T17:05:41Z)
From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文参考訳（メタデータ） (2026-03-02T13:02:13Z)
Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文参考訳（メタデータ） (2026-02-27T04:49:01Z)
Hide-and-Seek Attribution: Weakly Supervised Segmentation of Vertebral Metastases in CT [68.09387763135236]
脊椎レベルの健康・悪性のラベルにのみ、病変マスクを伴わずに訓練を施した弱い指導方法を提案する。マスクの監視がないにも関わらず,強い爆発・解析性能を達成する。
論文参考訳（メタデータ） (2025-12-07T14:03:28Z)
MeCaMIL: Causality-Aware Multiple Instance Learning for Fair and Interpretable Whole Slide Image Diagnosis [40.3028468133626]
MIL(Multiple Case Learning)は、コンピュータ病理学における全スライド画像(WSI)解析の主流パラダイムとして登場した。因果関係を意識したMILフレームワークである textbfMeCaMIL は、構造化因果グラフを通じて、階層的共同創設者を明示的にモデル化する。 MeCaMILは優れた公正性を達成する -- 人口格差の分散は、属性全体の平均で65%以上減少する。
論文参考訳（メタデータ） (2025-11-14T06:47:21Z)
Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。 5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文参考訳（メタデータ） (2025-10-19T08:21:00Z)
Depth-Sequence Transformer (DST) for Segment-Specific ICA Calcification Mapping on Non-Contrast CT [38.85617601239779]
従来の3Dモデルは、縮小されたボリュームや分離されたパッチを処理せざるを得ない。我々は,3次元課題を1次元軸方向に沿ったtextbfParallel Probabilistic Landmark Localizationタスクとして再構成する。フル解像度CTボリュームを2次元スライスシーケンスとして処理するフレームワークである textbfDepth-Sequence Transformer (DST) を提案する。
論文参考訳（メタデータ） (2025-07-10T23:12:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。