論文の概要: DualPrompt-MedCap: A Dual-Prompt Enhanced Approach for Medical Image Captioning
- arxiv url: http://arxiv.org/abs/2504.09598v1
- Date: Sun, 13 Apr 2025 14:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:59.774630
- Title: DualPrompt-MedCap: A Dual-Prompt Enhanced Approach for Medical Image Captioning
- Title(参考訳): Dual Prompt-MedCap: 医用画像キャプチャのためのデュアルプロンプト強化アプローチ
- Authors: Yining Zhao, Ali Braytee, Mukesh Prasad,
- Abstract要約: 我々は、LVLM(Large Vision-Language Models)を拡張した新しいデュアルプロンプト拡張フレームワークであるDualPrompt-MedCapを紹介する。
医療用問合せペアを事前訓練した半教師付き分類モデルに基づくモダリティ認識プロンプトと,バイオメディカル言語モデル埋め込みを利用した質問誘導プロンプト。
本手法は,医療専門家の事前知識と下流視覚言語タスクの自動アノテーションとして機能する臨床的精度の高いレポートの作成を可能にする。
- 参考スコア(独自算出の注目度): 5.456249017636404
- License:
- Abstract: Medical image captioning via vision-language models has shown promising potential for clinical diagnosis assistance. However, generating contextually relevant descriptions with accurate modality recognition remains challenging. We present DualPrompt-MedCap, a novel dual-prompt enhancement framework that augments Large Vision-Language Models (LVLMs) through two specialized components: (1) a modality-aware prompt derived from a semi-supervised classification model pretrained on medical question-answer pairs, and (2) a question-guided prompt leveraging biomedical language model embeddings. To address the lack of captioning ground truth, we also propose an evaluation framework that jointly considers spatial-semantic relevance and medical narrative quality. Experiments on multiple medical datasets demonstrate that DualPrompt-MedCap outperforms the baseline BLIP-3 by achieving a 22% improvement in modality recognition accuracy while generating more comprehensive and question-aligned descriptions. Our method enables the generation of clinically accurate reports that can serve as medical experts' prior knowledge and automatic annotations for downstream vision-language tasks.
- Abstract(参考訳): ヴィジュアル言語モデルによる医用画像キャプションは、臨床診断支援に有望な可能性を示唆している。
しかし, 正確なモダリティ認識による文脈関連記述の生成はいまだに困難である。
本報告では,DualPrompt-MedCapとLVLM(Large Vision-Language Models)を2つの特殊なコンポーネントを通じて拡張する新しいデュアルプロンプト拡張フレームワークについて述べる。
また, 接頭辞的真実の欠如に対処するために, 空間的意味的関連性と医療的物語の質を両立させる評価枠組みを提案する。
複数の医療データセットの実験では、DualPrompt-MedCapは、より包括的で質問に沿う記述を生成しながら、モダリティ認識精度を22%向上させることで、BLIP-3のベースラインよりも優れていることが示されている。
本手法は,医療専門家の事前知識と下流視覚言語タスクの自動アノテーションとして機能する臨床的精度の高いレポートの作成を可能にする。
関連論文リスト
- Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning [44.99833362998488]
医用画像解析のための階層的コントラストアライメント(HiCA)を用いた適応型視覚言語ファインタニングを提案する。
HiCAは、ドメイン固有の事前学習と階層的コントラスト学習を組み合わせて、視覚的およびテキスト的表現を複数のレベルで整列させる。
我々はChest X-rayとBreast Ultrasoundという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-01-16T05:01:30Z) - Exploring Low-Resource Medical Image Classification with Weakly
Supervised Prompt Learning [21.604146757986765]
既存の訓練済みの視覚言語モデルでは、ドメインの専門家が医療プロンプトを慎重に設計する必要がある。
本稿では,医療用プロンプトを自動生成する弱教師付きプロンプト学習手法MedPromptを提案する。
自動生成プロンプトを用いたモデルは,手作りのフルショット学習プロンプトよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-06T07:53:23Z) - Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning
for Medical Image Captioning [12.10183458424711]
本稿では, セグメンション・アプライス・モデル (SAM) でガイドされた新しい医用画像キャプション法について述べる。
本手法では, 医用画像の総合的情報と細部を同時に捉えるために, セマンティック学習を併用した独特な事前学習戦略を採用している。
論文 参考訳(メタデータ) (2023-11-02T05:44:13Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - UnICLAM:Contrastive Representation Learning with Adversarial Masking for
Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。
本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。
VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-12-21T02:48:15Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。