論文の概要: MedBLIP: Fine-tuning BLIP for Medical Image Captioning
- arxiv url: http://arxiv.org/abs/2505.14726v1
- Date: Tue, 20 May 2025 00:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.655446
- Title: MedBLIP: Fine-tuning BLIP for Medical Image Captioning
- Title(参考訳): MedBLIP:医療用画像キャプション用細調整型BLIP
- Authors: Manshi Limbu, Diwita Banerjee,
- Abstract要約: ROCOデータセットにおけるBLIPモデルの微調整の有効性について検討した。
以上の結果から,BLIPのドメイン固有微調整により,定量評価と定性評価の両指標における性能が著しく向上することが示唆された。
本研究は,医療応用へのターゲット適応の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image captioning is a challenging task that requires generating clinically accurate and semantically meaningful descriptions of radiology images. While recent vision-language models (VLMs) such as BLIP, BLIP2, Gemini and ViT-GPT2 show strong performance on natural image datasets, they often produce generic or imprecise captions when applied to specialized medical domains. In this project, we explore the effectiveness of fine-tuning the BLIP model on the ROCO dataset for improved radiology captioning. We compare the fine-tuned BLIP against its zero-shot version, BLIP-2 base, BLIP-2 Instruct and a ViT-GPT2 transformer baseline. Our results demonstrate that domain-specific fine-tuning on BLIP significantly improves performance across both quantitative and qualitative evaluation metrics. We also visualize decoder cross-attention maps to assess interpretability and conduct an ablation study to evaluate the contributions of encoder-only and decoder-only fine-tuning. Our findings highlight the importance of targeted adaptation for medical applications and suggest that decoder-only fine-tuning (encoder-frozen) offers a strong performance baseline with 5% lower training time than full fine-tuning, while full model fine-tuning still yields the best results overall.
- Abstract(参考訳): 医用画像キャプションは臨床的に正確で意味のある放射線画像の記述を生成することを必要とする課題である。
BLIP、BLIP2、Gemini、ViT-GPT2といった近年の視覚言語モデル(VLM)は、自然画像データセットに強い性能を示すが、専門の医療領域に適用すると、一般的なキャプションや不正確なキャプションを生成することが多い。
本稿では,ROCOデータセット上でBLIPモデルを微調整し,ラジオグラフィーのキャプションを改善する効果について検討する。
我々は、細調整されたBLIPをゼロショットバージョン、BLIP-2ベース、BLIP-2インストラクタ、ViT-GPT2トランスバータベースラインと比較する。
以上の結果から,BLIPのドメイン固有微調整により,定量評価と定性評価の両指標における性能が著しく向上することが示唆された。
また,デコーダ・クロスアテンション・マップを可視化し,解釈可能性を評価し,エンコーダ・オン・デコーダ・オン・デコーダ・オン・ファインタニングの貢献度を評価する。
以上の結果から, デコーダのみの微調整(エンコーダフリーズ)は, フル微調整よりも5%低いトレーニング時間, フルモデル微調整は総合的に最高の結果をもたらすことが示唆された。
関連論文リスト
- Assessing the Performance of the DINOv2 Self-supervised Learning Vision Transformer Model for the Segmentation of the Left Atrium from MRI Images [1.2499537119440245]
DINOv2は、MRIを用いたLAセグメンテーションのための自然画像に基づいて訓練された自己教師型学習視覚変換器である。
我々は、Diceスコアが.871で、Jaccard Indexが.792で、エンドツーエンドの微調整が可能な、正確で一貫したセグメンテーションを提供する能力を示す。
これらの結果は、DINOv2がMRIに限られたデータで効果的に適応し、セグメンテーションの競争ツールとしての可能性を強調し、医療画像の幅広い利用を促進することを示唆している。
論文 参考訳(メタデータ) (2024-11-14T17:15:51Z) - Fair Text to Medical Image Diffusion Model with Subgroup Distribution Aligned Tuning [15.228147848600877]
医用画像へのテキスト・トゥ・メディカル・イメージ (T2MedI) の潜伏拡散モデルは, 医用画像データの不足を緩和する大きな可能性を秘めている。
しかし、自然画像モデルへのテキストとして、T2MedIモデルは一部のサブグループにも偏りがあり、トレーニングセットの少数派を見渡すことができる。
そこで本研究では,まず,CLIPテキストエンコーダを固定した,事前学習型 Imagen モデルに基づく T2MedI モデルを構築した。
そのデコーダは、C.のRadiology Objectsの医療画像に微調整されている。
論文 参考訳(メタデータ) (2024-06-21T03:23:37Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - LViT: Language meets Vision Transformer in Medical Image Segmentation [12.755116093159035]
LViT (Language meets Vision Transformer) を提案する。
LViTモデルでは,画像データの品質低下を補うために医療用テキストアノテーションが組み込まれている。
提案するLViTは,完全教師付きと半教師付きの両方でセグメンテーション性能が優れている。
論文 参考訳(メタデータ) (2022-06-29T15:36:02Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z) - Cascaded Robust Learning at Imperfect Labels for Chest X-ray
Segmentation [61.09321488002978]
不完全アノテーションを用いた胸部X線分割のための新しいカスケードロバスト学習フレームワークを提案する。
モデルは3つの独立したネットワークから成り,ピアネットワークから有用な情報を効果的に学習できる。
提案手法は,従来の手法と比較して,セグメント化タスクの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-04-05T15:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。