論文の概要: Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.05189v1
- Date: Thu, 08 May 2025 12:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.87696
- Title: Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models
- Title(参考訳): Biomed-DPT: バイオメディカルビジョン・ランゲージモデルのためのデュアルモダリティ・プロンプトチューニング
- Authors: Wei Peng, Kang Liu, Jianchen Hu, Meng Zhang,
- Abstract要約: 知識に富んだ2次元モーダル・プロンプト・チューニング手法であるBiomed-DPTを提案する。
テキストプロンプトを設計する際、Biomed-DPTはテンプレート駆動型臨床プロンプトとLLM(Big Language Model)駆動型ドメイン適応プロンプトを含む二重プロンプトを構築する。
ビジョンプロンプトの設計において、Biomed-DPTは、注意再重み付けを活用するソフトプロンプトとしてゼロベクトルを導入し、非診断領域へのフォーカスと非クリティカルな病理学的特徴の認識を回避する。
- 参考スコア(独自算出の注目度): 12.900606829363642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning is one of the most effective paradigms for adapting pre-trained vision-language models (VLMs) to the biomedical image classification tasks in few shot scenarios. However, most of the current prompt learning methods only used the text prompts and ignored the particular structures (such as the complex anatomical structures and subtle pathological features) in the biomedical images. In this work, we propose Biomed-DPT, a knowledge-enhanced dual modality prompt tuning technique. In designing the text prompt, Biomed-DPT constructs a dual prompt including the template-driven clinical prompts and the large language model (LLM)-driven domain-adapted prompts, then extracts the clinical knowledge from the domain-adapted prompts through the knowledge distillation technique. In designing the vision prompt, Biomed-DPT introduces the zero vector as a soft prompt to leverage attention re-weighting so that the focus on non-diagnostic regions and the recognition of non-critical pathological features are avoided. Biomed-DPT achieves an average classification accuracy of 66.14\% across 11 biomedical image datasets covering 9 modalities and 10 organs, with performance reaching 78.06\% in base classes and 75.97\% in novel classes, surpassing the Context Optimization (CoOp) method by 6.20\%, 3.78\%, and 8.04\%, respectively. Our code are available at \underline{https://github.com/Kanyooo/Biomed-DPT}.
- Abstract(参考訳): プロンプト学習は、生物医学的な画像分類タスクに事前訓練された視覚言語モデル(VLM)を適用するための最も効果的なパラダイムの1つである。
しかし、現在のプロンプト学習法のほとんどは、バイオメディカル画像における特定の構造(複雑な解剖学的構造や微妙な病理学的特徴など)のみを使用し、無視している。
本研究では,知識に富んだ2次元モータリティ・プロンプト・チューニング技術であるBiomed-DPTを提案する。
テキストプロンプトを設計する際に、Biomed-DPTはテンプレート駆動型臨床プロンプトと大型言語モデル(LLM)駆動型ドメイン適応プロンプトを含む二重プロンプトを構築し、その後、知識蒸留技術を通じてドメイン適応プロンプトから臨床知識を抽出する。
ビジョンプロンプトの設計において、Biomed-DPTは、注意再重み付けを活用するソフトプロンプトとしてゼロベクトルを導入し、非診断領域へのフォーカスと非クリティカルな病理学的特徴の認識を回避する。
バイオメディカルDPTは、9つのモダリティと10の臓器を含む11のバイオメディカルイメージデータセットの平均分類精度66.14\%に達し、パフォーマンスは、ベースクラスで78.06\%、新しいクラスで75.97\%に達し、それぞれコンテキスト最適化(CoOp)法を6.20\%、3.78\%、8.04\%を超えた。
私たちのコードは \underline{https://github.com/Kanyooo/Biomed-DPT} で利用可能です。
関連論文リスト
- DualPrompt-MedCap: A Dual-Prompt Enhanced Approach for Medical Image Captioning [5.456249017636404]
我々は、LVLM(Large Vision-Language Models)を拡張した新しいデュアルプロンプト拡張フレームワークであるDualPrompt-MedCapを紹介する。
医療用問合せペアを事前訓練した半教師付き分類モデルに基づくモダリティ認識プロンプトと,バイオメディカル言語モデル埋め込みを利用した質問誘導プロンプト。
本手法は,医療専門家の事前知識と下流視覚言語タスクの自動アノテーションとして機能する臨床的精度の高いレポートの作成を可能にする。
論文 参考訳(メタデータ) (2025-04-13T14:31:55Z) - MAST-Pro: Dynamic Mixture-of-Experts for Adaptive Segmentation of Pan-Tumors with Knowledge-Driven Prompts [54.915060471994686]
MAST-Proは,ダイナミックなMixture-of-Experts(D-MoE)とパン腫瘍セグメンテーションのための知識駆動プロンプトを統合した新しいフレームワークである。
具体的には、テキストと解剖学的プロンプトは、腫瘍表現学習を導くドメイン固有の事前情報を提供し、D-MoEは、ジェネリックと腫瘍固有の特徴学習のバランスをとる専門家を動的に選択する。
マルチ解剖学的腫瘍データセットの実験では、MAST-Proは最先端のアプローチよりも優れており、トレーニング可能なパラメータを91.04%削減し、平均改善の5.20%を達成している。
論文 参考訳(メタデータ) (2025-03-18T15:39:44Z) - BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models [2.2585213273821716]
本稿では,バイオメディカル画像解析のための新しいプロンプト学習フレームワークであるBiomedCoOpを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-21T19:13:04Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Tissue Classification During Needle Insertion Using Self-Supervised
Contrastive Learning and Optical Coherence Tomography [53.38589633687604]
針先端で取得した複雑なCT信号の位相および強度データから組織を分類するディープニューラルネットワークを提案する。
トレーニングセットの10%で、提案した事前学習戦略により、モデルが0.84のF1スコアを達成するのに対して、モデルが0.60のF1スコアを得るのに対して、モデルが0.84のF1スコアを得るのに役立ちます。
論文 参考訳(メタデータ) (2023-04-26T14:11:04Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Prompt Combines Paraphrase: Teaching Pre-trained Models to Understand
Rare Biomedical Words [42.002637318274886]
提案手法は, モデルがレアなバイオメディカルな単語を学習し, プロンプトで学習する上で, シンプルかつ効果的なアプローチである。
実験の結果,生物医学的自然言語推論タスクでは最大6%の改善が達成できた。
論文 参考訳(メタデータ) (2022-09-14T07:03:29Z) - Fine-tuning Pretrained Language Models with Label Attention for
Explainable Biomedical Text Classification [1.066048003460524]
PTMの微調整プロセスに意味ラベル記述を注入するための改良されたラベルアテンションに基づくアーキテクチャを開発した。
2つの公開医療データセットの結果、提案手法は従来の微調整PTMと先行技術モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-26T14:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。