論文の概要: K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging
- arxiv url: http://arxiv.org/abs/2603.06340v1
- Date: Fri, 06 Mar 2026 14:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.992887
- Title: K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging
- Title(参考訳): K-MaT:医療画像におけるクロスモーダル・プロンプト学習のための知識アンコールドマニフォールド・トランスポート
- Authors: Jiajun Zeng, Shadi Albarqouni,
- Abstract要約: K-MaTは、意思決定構造をローエンドなモダリティに転送する、素早い学習フレームワークである。
K-MaTはプロンプトを分解し、臨床テキスト記述に固定し、ローエンドプロンプト多様体を視覚的に接地されたハイエンド空間に整列させる。
胸部X線CT, 皮膚内視鏡検査, マンモグラフィー, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査, 胸部X線検査,
- 参考スコア(独自算出の注目度): 3.1964062750771096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale biomedical vision-language models (VLMs) adapted on high-end imaging (e.g., CT) often fail to transfer to frontline low-end modalities (e.g., radiography), collapsing into modality-specific shortcuts. We propose K-MaT (Knowledge-Anchored Manifold Transport), a prompt-learning framework that transfers decision structures to low-end modalities without requiring low-end training images. K-MaT factorizes prompts, anchors them to clinical text descriptions, and aligns the low-end prompt manifold to the visually-grounded high-end space using Fused Gromov-Wasserstein optimal transport. We evaluate K-MaT on four cross-modal benchmarks, including dermoscopy, mammography to ultrasound, and CT to chest X-ray. K-MaT achieves state-of-the-art results, improving the average harmonic mean of accuracy to 44.1% (from BiomedCoOp's 42.0%) and macro-F1 to 36.2%. Notably, on the challenging breast imaging task, it mitigates the catastrophic forgetting seen in standard methods like CoOp (which drops to 27.0% accuracy on the low-end), preserving robust performance across modalities. Aligning prompt manifolds via optimal transport provides a highly effective route for the zero-shot cross-modal deployment of medical VLMs.
- Abstract(参考訳): ハイエンド画像(例えばCT)に適応した大規模バイオメディカルビジョン言語モデル(VLM)は、しばしばフロントラインのローエンドモード(例えば、ラジオグラフィー)への転送に失敗し、モダリティ固有のショートカットに崩壊する。
そこで我々は,K-MaT (Knowledge-Anchored Manifold Transport) を提案する。
K-MaTはプロンプトを分解し、それらを臨床テキスト記述に固定し、Fused Gromov-Wasserstein の最適輸送を用いて、ローエンドのプロンプト多様体を視覚的に接地されたハイエンド空間に整列する。
胸部X線CT, 皮膚内視鏡検査, マンモグラフィー, 超音波検査, 胸部X線CTの4つのベンチマークでK-MaTを評価した。
K-MaTは最先端の結果を達成し、平均高調波平均の精度を44.1%(BiomedCoOpの42.0%から)、マクロF1から36.2%に改善した。
特に、挑戦的な乳房画像のタスクでは、CoOp(ローエンドでは27.0%の精度に低下する)のような標準手法で見られる破滅的な忘れを軽減し、モダリティにわたって堅牢なパフォーマンスを維持する。
最適な輸送を通した即時多様体の配向は、医療用VLMのゼロショットクロスモーダル展開に極めて効果的な経路を提供する。
関連論文リスト
- Enabling Ultra-Fast Cardiovascular Imaging Across Heterogeneous Clinical Environments with a Generalist Foundation Model and Multimodal Database [64.65360708629485]
MMCMR-427Kは、最大かつ最も包括的なマルチモーダル心血管共鳴k空間データベースである。
CardioMMは、異種高速CMRイメージングシナリオに適応可能な再構成基盤モデルである。
CardioMMは、物理インフォームドデータ一貫性と意味的文脈理解を統合して、堅牢な再構築を実現する。
論文 参考訳(メタデータ) (2025-12-25T12:47:50Z) - Scaling Down to Scale Up: Towards Operationally-Efficient and Deployable Clinical Models via Cross-Modal Low-Rank Adaptation for Medical Vision-Language Models [0.30586855806896035]
視覚言語による事前訓練によってトレーニングされた基礎モデルは、多様な画像領域にまたがる強力なゼロショット機能を示している。
MedCT-VLM(MedCT-VLM: Medical CT Vision-Language Model)を紹介する。
胸部疾患18例のゼロショット分類について検討し,CT埋め込みと未確認のテキストプロンプトを,タスク固有の訓練を伴わない推論で一致させなければならないことを示した。
論文 参考訳(メタデータ) (2025-11-29T19:03:25Z) - Lesion-Aware Post-Training of Latent Diffusion Models for Synthesizing Diffusion MRI from CT Perfusion [12.777937532267105]
ラテント拡散モデル(LDMs)は圧縮されたラテント空間における効率的な学習を活用する。
この効率性にはトレードオフがあり、重要なピクセルレベルの詳細を妥協させる可能性がある。
本稿では, 画像から画像への変換において, 病変対応の医用画素空間の目的を取り入れた, LDMの新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T06:51:27Z) - EqDiff-CT: Equivariant Conditional Diffusion model for CT Image Synthesis from CBCT [43.92108185590778]
画像誘導放射線療法(IGRT)に広く用いられているコーンビームCT(CBCT)
CBCTから高品質なCT画像を生成するために,EqDiff-CTという新しい拡散型条件生成モデルを提案する。
論文 参考訳(メタデータ) (2025-09-26T05:51:59Z) - CREATE-FFPE: Cross-Resolution Compensated and Multi-Frequency Enhanced FS-to-FFPE Stain Transfer for Intraoperative IHC Images [36.86200669664992]
本稿では,多周波化FS-to-FFPE(CREATE-FFPE)ステンディング・トランスファー・フレームワークを提案する。
外科領域で高画質のIHC画像の観察を支援するため,多周波化FS-to-FFPE(CREATE-FFPE)ステンディング・トランスファー・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T02:38:11Z) - Panoptic Segmentation of Mammograms with Text-To-Image Diffusion Model [1.2130800774416757]
視覚言語拡散モデルは、様々な下流タスクに対する画像生成と転送性において顕著な性能を示した。
本稿では,安定拡散モデルから最新のパン光学セグメントアーキテクチャへの入力として,事前学習した特徴を活用することを提案する。
論文 参考訳(メタデータ) (2024-07-19T14:04:05Z) - CodaMal: Contrastive Domain Adaptation for Malaria Detection in Low-Cost Microscopes [51.5625352379093]
マラリアは世界中で大きな問題であり、診断には低コストの顕微鏡(LCM)で効果的に動作するスケーラブルなソリューションが必要である。
ディープラーニングに基づく手法は、顕微鏡画像からコンピュータ支援による診断に成功している。
これらの方法には、マラリア原虫の感染した細胞とその生活段階を示す注釈画像が必要である。
LCMからの注記画像は、高精細顕微鏡(HCM)からの注記画像と比較して医療専門家の負担を著しく増大させる
論文 参考訳(メタデータ) (2024-02-16T06:57:03Z) - Domain Transfer Through Image-to-Image Translation for Uncertainty-Aware Prostate Cancer Classification [42.75911994044675]
前立腺MRIの非対位画像翻訳のための新しいアプローチと臨床的に重要なPCaを分類するための不確実性認識トレーニングアプローチを提案する。
提案手法では,無ペアの3.0T多パラメータ前立腺MRIを1.5Tに翻訳し,利用可能なトレーニングデータを増強する。
実験の結果,提案手法は,従来の研究に比べてAUC(Area Under ROC Curve)を20%以上改善することがわかった。
論文 参考訳(メタデータ) (2023-07-02T05:26:54Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。