論文の概要: Medical Knowledge Intervention Prompt Tuning for Medical Image Classification
- arxiv url: http://arxiv.org/abs/2511.12639v1
- Date: Sun, 16 Nov 2025 15:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.420129
- Title: Medical Knowledge Intervention Prompt Tuning for Medical Image Classification
- Title(参考訳): 医用画像分類のための医用知識介入プロンプトチューニング
- Authors: Ye Du, Nanxi Yu, Shujun Wang,
- Abstract要約: 本稿では,プロンプトチューニングのためのCILMP,Large Language Modelsの条件付きインターベンションを紹介する。
大型言語モデル(LLM)とビジョン言語基盤モデル(VLM)を橋渡しし、医療知識のVLMプロンプトへの移行を容易にする。
常に最先端のプロンプトチューニング手法より優れており、その効果を実証している。
- 参考スコア(独自算出の注目度): 9.836162358361687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language foundation models (VLMs) have shown great potential in feature transfer and generalization across a wide spectrum of medical-related downstream tasks. However, fine-tuning these models is resource-intensive due to their large number of parameters. Prompt tuning has emerged as a viable solution to mitigate memory usage and reduce training time while maintaining competitive performance. Nevertheless, the challenge is that existing prompt tuning methods cannot precisely distinguish different kinds of medical concepts, which miss essentially specific disease-related features across various medical imaging modalities in medical image classification tasks. We find that Large Language Models (LLMs), trained on extensive text corpora, are particularly adept at providing this specialized medical knowledge. Motivated by this, we propose incorporating LLMs into the prompt tuning process. Specifically, we introduce the CILMP, Conditional Intervention of Large Language Models for Prompt Tuning, a method that bridges LLMs and VLMs to facilitate the transfer of medical knowledge into VLM prompts. CILMP extracts disease-specific representations from LLMs, intervenes within a low-rank linear subspace, and utilizes them to create disease-specific prompts. Additionally, a conditional mechanism is incorporated to condition the intervention process on each individual medical image, generating instance-adaptive prompts and thus enhancing adaptability. Extensive experiments across diverse medical image datasets demonstrate that CILMP consistently outperforms state-of-the-art prompt tuning methods, demonstrating its effectiveness. Code is available at https://github.com/usr922/cilmp.
- Abstract(参考訳): 視覚言語基礎モデル(VLM)は、幅広い医療関連下流タスクにおける特徴伝達と一般化に大きな可能性を示している。
しかし、これらのモデルの微調整は、多くのパラメーターのために資源集約的である。
プロンプトチューニングは、メモリ使用を軽減し、競争性能を維持しながらトレーニング時間を短縮する実行可能なソリューションとして登場した。
それにもかかわらず、既存のプロンプトチューニング手法では、医療画像分類タスクにおける様々な医療画像のモダリティに本質的に特定の疾患関連の特徴を欠いている、異なる種類の医療概念を正確に区別することはできない。
広範テキストコーパスで訓練されたLarge Language Models (LLMs) は,特に専門的な医療知識の提供に長けている。
そこで本研究では,LLMを即時チューニングプロセスに組み込むことを提案する。
具体的には, LLM と VLM を橋渡しして VLM プロンプトへの医療知識の伝達を容易にする手法である CILMP, Conditional Intervention of Large Language Models for Prompt Tuning を紹介する。
CILMPはLLMから疾患特異的な表現を抽出し、低ランクの線形部分空間内で介入し、疾患特異的なプロンプトを生成する。
さらに、個別の医療画像に介入プロセスを条件付けし、インスタンス適応プロンプトを生成し、適応性を高める条件機構が組み込まれている。
多様な医用画像データセットにわたる大規模な実験により、CILMPは一貫して最先端のプロンプトチューニング手法より優れており、その効果が示されている。
コードはhttps://github.com/usr922/cilmp.comで入手できる。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
医学的異常を明らかにするための新しいUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - CoMT: Chain-of-Medical-Thought Reduces Hallucination in Medical Report Generation [20.59298361626719]
医療報告生成における幻覚を緩和するためのチェーン・オブ・メディカル・シント・アプローチ(CoMT)を提案する。
CoMTは、診断手順を分解することで、人間の医師の認知過程を模倣しようとしている。
論文 参考訳(メタデータ) (2024-06-17T12:03:32Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。