論文の概要: K-Prism: A Knowledge-Guided and Prompt Integrated Universal Medical Image Segmentation Model
- arxiv url: http://arxiv.org/abs/2509.25594v1
- Date: Mon, 29 Sep 2025 23:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.36538
- Title: K-Prism: A Knowledge-Guided and Prompt Integrated Universal Medical Image Segmentation Model
- Title(参考訳): K-Prism: 総合的医用画像分割モデル
- Authors: Bangwei Guo, Yunhe Gao, Meng Ye, Difei Gu, Yang Zhou, Leon Axel, Dimitris Metaxas,
- Abstract要約: $textbfK-Prism$は統合セグメンテーションフレームワークである。
i) $textitsemantic priors$ アノテーション付きデータセットから学び、 (ii) $textitin-context knowledge$ スクリーンショット参照例から学ぶこと、 (iii) $textitinteractive feedback$ クリックやスクリブルのようなユーザ入力から学ぶこと。
セマンティック、インコンテキスト、インタラクティブセグメンテーション設定で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.3698788945141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation is fundamental to clinical decision-making, yet existing models remain fragmented. They are usually trained on single knowledge sources and specific to individual tasks, modalities, or organs. This fragmentation contrasts sharply with clinical practice, where experts seamlessly integrate diverse knowledge: anatomical priors from training, exemplar-based reasoning from reference cases, and iterative refinement through real-time interaction. We present $\textbf{K-Prism}$, a unified segmentation framework that mirrors this clinical flexibility by systematically integrating three knowledge paradigms: (i) $\textit{semantic priors}$ learned from annotated datasets, (ii) $\textit{in-context knowledge}$ from few-shot reference examples, and (iii) $\textit{interactive feedback}$ from user inputs like clicks or scribbles. Our key insight is that these heterogeneous knowledge sources can be encoded into a dual-prompt representation: 1-D sparse prompts defining $\textit{what}$ to segment and 2-D dense prompts indicating $\textit{where}$ to attend, which are then dynamically routed through a Mixture-of-Experts (MoE) decoder. This design enables flexible switching between paradigms and joint training across diverse tasks without architectural modifications. Comprehensive experiments on 18 public datasets spanning diverse modalities (CT, MRI, X-ray, pathology, ultrasound, etc.) demonstrate that K-Prism achieves state-of-the-art performance across semantic, in-context, and interactive segmentation settings. Code will be released upon publication.
- Abstract(参考訳): 医療画像のセグメンテーションは臨床的な意思決定の基礎であるが、既存のモデルは断片化されている。
通常、単一の知識源で訓練され、個々のタスク、モダリティ、臓器に特化している。
この断片化は、専門家が様々な知識をシームレスに統合する臨床実践とは対照的である。
我々は,3つの知識パラダイムを体系的に統合することにより,この臨床的柔軟性を反映した統合セグメンテーションフレームワークである$\textbf{K-Prism}$を提示する。
(i) $\textit{semantic priors}$ アノテーション付きデータセットから学ぶ。
(ii) $\textit{in-context knowledge}$ from few-shot reference example, and
(iii)$\textit{interactive feedback}$ クリックやスクリブルのようなユーザ入力から。
1-Dスパースプロンプトは$\textit{what}$をセグメントに定義し、2-D高密度プロンプトは$\textit{where}$を参加させ、その後、Mixture-of-Experts (MoE)デコーダを介して動的にルーティングする。
この設計により、アーキテクチャの変更なしに様々なタスク間でパラダイムと共同トレーニングを柔軟に切り替えることができる。
多様なモダリティ(CT、MRI、X線、病理、超音波など)にまたがる18のパブリックデータセットに関する総合的な実験は、K-Prismがセマンティック、インコンテキスト、インタラクティブセグメンテーション設定にわたって最先端のパフォーマンスを達成することを実証している。
コードは出版時に公開される。
関連論文リスト
- Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T05:44:01Z) - Historical Report Guided Bi-modal Concurrent Learning for Pathology Report Generation [14.8602760818616]
病理学者の診断的推論を模擬したリポート「textbfBi-modal Concurrent Learning Framework for Pathology Report textbfGeneration (BiGen)」
BiGenは、ハイアテンションパッチにマッチして、事前に構築された医療知識銀行からWSI関連知識を取得する。
提案手法は,NLP指標が7.4%,Her-2予測のための分類指標が19.1%向上し,最先端性能を実現している。
論文 参考訳(メタデータ) (2025-06-23T14:00:21Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models [12.895542069443438]
セグメンテーションの柔軟性を高めるために,従来のタスクトークンと並行して,LLM(Large Language Model)を通じて様々なタスクプロンプトを導入する。
コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために微調整言語プロンプトを用いた計算効率の高いパイプラインを構築し,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較し,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計する。
論文 参考訳(メタデータ) (2024-07-13T18:51:52Z) - CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation [11.087654014615955]
CATは,医学領域の知識に富んだ3Dクロップ画像から得られた解剖学的プロンプトとテクスチャ的プロンプトをコーディネートする革新的なモデルである。
10のパブリックCTデータセットからなるコンソーシアムでトレーニングされたCATは、複数のセグメンテーションタスクにおいて優れたパフォーマンスを示している。
このアプローチは、マルチモーダルプロンプトのコーディネートが、医療領域における複雑なシナリオに対処するための有望な道であることを確認した。
論文 参考訳(メタデータ) (2024-06-11T09:22:39Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Towards Cross-modality Medical Image Segmentation with Online Mutual
Knowledge Distillation [71.89867233426597]
本稿では,あるモダリティから学習した事前知識を活用し,別のモダリティにおけるセグメンテーション性能を向上させることを目的とする。
モーダル共有知識を徹底的に活用する新しい相互知識蒸留法を提案する。
MMWHS 2017, MMWHS 2017 を用いた多クラス心筋セグメンテーション実験の結果, CT セグメンテーションに大きな改善が得られた。
論文 参考訳(メタデータ) (2020-10-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。