Fugu-MT 論文翻訳(概要): Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Models

論文の概要: Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Models

arxiv url: http://arxiv.org/abs/2312.03970v1
Date: Thu, 7 Dec 2023 01:01:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 16:25:43.534521
Title: Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Models
Title（参考訳）: 視覚言語基礎モデルにおけるアダプタチューニングと知識強化による医療レポート生成の改善
Authors: Shibin Wu, Bang Yang, Zhiyu Ye, Haoqian Wang, Hairong Zheng, Tong Zhang
Abstract要約: この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。 ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
参考スコア（独自算出の注目度）: 26.146579369491718
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Medical report generation demands automatic creation of coherent and precise descriptions for medical images. However, the scarcity of labelled medical image-report pairs poses formidable challenges in developing large-scale neural networks capable of harnessing the potential of artificial intelligence, exemplified by large language models. This study builds upon the state-of-the-art vision-language pre-training and fine-tuning approach, BLIP-2, to customize general large-scale foundation models. Integrating adapter tuning and a medical knowledge enhancement loss, our model significantly improves accuracy and coherence. Validation on the dataset of ImageCLEFmedical 2023 demonstrates our model's prowess, achieving the best-averaged results against several state-of-the-art methods. Significant improvements in ROUGE and CIDEr underscore our method's efficacy, highlighting promising outcomes for the rapid medical-domain adaptation of the vision-language foundation models in addressing challenges posed by data scarcity.
Abstract（参考訳）: 医療報告生成は、医用画像の一貫性と正確な記述の自動作成を要求する。しかしながら、ラベル付き医療画像レポートペアの不足は、大規模な言語モデルで実証された人工知能の潜在能力を活用できる大規模ニューラルネットワークを開発する上で、重大な課題を生じさせる。この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。アダプタチューニングと医療知識向上の損失を統合することで,モデルの精度とコヒーレンスを大幅に向上させる。 ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。 ROUGEとCIDErの顕著な改善は、データ不足による課題に対処するため、ビジョン言語基盤モデルの迅速な医療ドメイン適応に向けた有望な成果を浮き彫りにした。

関連論文リスト

Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
PRISM: High-Resolution & Precise Counterfactual Medical Image Generation using Language-guided Stable Diffusion [5.504796147401483]
医用画像のための信頼性と一般化可能な深層学習システムの開発は、素早い相関関係、データ不均衡、データセットにおける限られたテキストアノテーションなどにより、大きな障害に直面している。 PRISMは,基礎モデルを利用して高分解能・言語誘導型医用画像対物を生成するフレームワークである。
論文参考訳（メタデータ） (2025-02-28T21:32:08Z)
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation [68.4316501012718]
HealthGPTは医療用大規模視線モデル(Med-LVLM)である医療的な視覚的理解と生成能力を統合された自己回帰パラダイムに統合する。
論文参考訳（メタデータ） (2025-02-14T00:42:36Z)
Multi-Scale Transformer Architecture for Accurate Medical Image Classification [4.578375402082224]
本研究では,トランスフォーマーアーキテクチャを改良したAIによる皮膚病変分類アルゴリズムを提案する。マルチスケールな特徴融合機構の統合と自己認識プロセスの洗練により、このモデルはグローバルな特徴とローカルな特徴の両方を効果的に抽出する。 ISIC 2017データセットのパフォーマンス評価は、改良されたTransformerが既存のAIモデルを上回ることを示している。
論文参考訳（メタデータ） (2025-02-10T08:22:25Z)
An Integrated Approach to AI-Generated Content in e-health [0.0]
合成医用画像とテキストデータを生成するためのエンドツーエンドのクラス条件付きフレームワークを提案する。我々のフレームワークはDiffusion and Large Language Models(LLM)を統合し、現実世界のパターンによくマッチするデータを生成する。
論文参考訳（メタデータ） (2025-01-18T14:35:29Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-08-22T05:52:27Z)
MRC-based Nested Medical NER with Co-prediction and Adaptive Pre-training [0.38498367961730184]
医療分野におけるモデルの能力向上のために,タスク適応型事前学習戦略を用いたMRC(Machine Reading)に基づく医療NERモデルを提案する。提案手法は, 比較最先端モデル(SOTA)よりも優れている。
論文参考訳（メタデータ） (2024-03-23T11:14:02Z)
Enhancing and Adapting in the Clinic: Source-free Unsupervised Domain Adaptation for Medical Image Enhancement [34.11633495477596]
ソースレス非教師なし領域適応医療画像強調法(SAME)を提案する。構造化学習データからロバストなソースモデルを学習するために,まず構造保存強化ネットワークを構築した。強化タスクの知識蒸留を促進するために擬似ラベルピッカーを開発した。
論文参考訳（メタデータ） (2023-12-03T10:01:59Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。提案手法は画像とテキストデータを融合して生成プロセスを強化する。我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文参考訳（メタデータ） (2023-09-01T22:08:32Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文参考訳（メタデータ） (2022-10-09T01:43:08Z)
Predicting Clinical Diagnosis from Patients Electronic Health Records Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文参考訳（メタデータ） (2020-07-15T09:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。