論文の概要: Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2312.03970v1
- Date: Thu, 7 Dec 2023 01:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:25:43.534521
- Title: Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models
- Title(参考訳): 視覚言語基礎モデルにおけるアダプタチューニングと知識強化による医療レポート生成の改善
- Authors: Shibin Wu, Bang Yang, Zhiyu Ye, Haoqian Wang, Hairong Zheng, Tong
Zhang
- Abstract要約: この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
- 参考スコア(独自算出の注目度): 26.146579369491718
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical report generation demands automatic creation of coherent and precise
descriptions for medical images. However, the scarcity of labelled medical
image-report pairs poses formidable challenges in developing large-scale neural
networks capable of harnessing the potential of artificial intelligence,
exemplified by large language models. This study builds upon the
state-of-the-art vision-language pre-training and fine-tuning approach, BLIP-2,
to customize general large-scale foundation models. Integrating adapter tuning
and a medical knowledge enhancement loss, our model significantly improves
accuracy and coherence. Validation on the dataset of ImageCLEFmedical 2023
demonstrates our model's prowess, achieving the best-averaged results against
several state-of-the-art methods. Significant improvements in ROUGE and CIDEr
underscore our method's efficacy, highlighting promising outcomes for the rapid
medical-domain adaptation of the vision-language foundation models in
addressing challenges posed by data scarcity.
- Abstract(参考訳): 医療報告生成は、医用画像の一貫性と正確な記述の自動作成を要求する。
しかしながら、ラベル付き医療画像レポートペアの不足は、大規模な言語モデルで実証された人工知能の潜在能力を活用できる大規模ニューラルネットワークを開発する上で、重大な課題を生じさせる。
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
アダプタチューニングと医療知識向上の損失を統合することで,モデルの精度とコヒーレンスを大幅に向上させる。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
ROUGEとCIDErの顕著な改善は、データ不足による課題に対処するため、ビジョン言語基盤モデルの迅速な医療ドメイン適応に向けた有望な成果を浮き彫りにした。
関連論文リスト
- Enhancing and Adapting in the Clinic: Source-free Unsupervised Domain
Adaptation for Medical Image Enhancement [34.11633495477596]
ソースレス非教師なし領域適応医療画像強調法(SAME)を提案する。
構造化学習データからロバストなソースモデルを学習するために,まず構造保存強化ネットワークを構築した。
強化タスクの知識蒸留を促進するために擬似ラベルピッカーを開発した。
論文 参考訳(メタデータ) (2023-12-03T10:01:59Z) - EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided
Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Confidence-Guided Radiology Report Generation [24.714303916431078]
本稿では,放射線学レポート作成作業における視覚的不確実性とテキスト的不確実性の両方を定量化する手法を提案する。
実験結果から, モデル不確実性評価と推定のための提案手法が, ラジオロジーレポート生成の信頼性向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-06-21T07:02:12Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。