論文の概要: Training Medical Large Vision-Language Models with Abnormal-Aware Feedback
- arxiv url: http://arxiv.org/abs/2501.01377v1
- Date: Thu, 02 Jan 2025 17:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:51.370858
- Title: Training Medical Large Vision-Language Models with Abnormal-Aware Feedback
- Title(参考訳): 異常認識フィードバックを用いた医用大規模視力訓練モデル
- Authors: Yucheng Zhou, Lingran Song, Jianbing Shen,
- Abstract要約: 本報告では,Unveiling Medicalnomaitiesを用いたUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
実験の結果, UMed-LVLMは既存のMed-LVLMを上回り, 医学的異常を同定し, 理解していることがわかった。
- 参考スコア(独自算出の注目度): 57.98393950821579
- License:
- Abstract: Existing Medical Large Vision-Language Models (Med-LVLMs), which encapsulate extensive medical knowledge, demonstrate excellent capabilities in understanding medical images and responding to human queries based on these images. However, there remain challenges in visual localization in medical images, which is crucial for abnormality detection and interpretation. To address these issues, we propose a novel UMed-LVLM designed with Unveiling Medical abnormalities. Specifically, we collect a Medical Abnormalities Unveiling (MAU) dataset and propose a two-stage training method for UMed-LVLM training. To collect MAU dataset, we propose a prompt method utilizing the GPT-4V to generate diagnoses based on identified abnormal areas in medical images. Moreover, the two-stage training method includes Abnormal-Aware Instruction Tuning and Abnormal-Aware Rewarding, comprising Abnormal Localization Rewarding and Vision Relevance Rewarding. Experimental results demonstrate that our UMed-LVLM surpasses existing Med-LVLMs in identifying and understanding medical abnormality. In addition, this work shows that enhancing the abnormality detection capabilities of Med-LVLMs significantly improves their understanding of medical images and generalization capability.
- Abstract(参考訳): 医学的知識をカプセル化した既存の医用大規模視線画像モデル(Med-LVLMs)は、医用画像の理解と、これらの画像に基づく人間の問い合わせに応答する優れた能力を示す。
しかし, 医用画像の視覚的局在化には依然として課題があり, 異常検出と解釈に不可欠である。
これらの課題に対処するため,医療機器の異常を解消したUMed-LVLMを提案する。
具体的には,MAUデータセットを収集し,UMed-LVLMトレーニングのための2段階トレーニング手法を提案する。
そこで本研究では,医用画像の異常領域を同定し,GPT-4Vを用いて診断を行う手法を提案する。
さらに、2段階の訓練方法は、異常局所化反転と視覚関連後退とを含む異常認識指示調整と異常認識後退とを含む。
実験の結果, UMed-LVLMは既存のMed-LVLMを上回り, 医学的異常を同定し, 理解していることがわかった。
さらに,Med-LVLMの異常検出能力の向上は,医用画像の理解と一般化能力を大幅に向上させることを示す。
関連論文リスト
- ClinKD: Cross-Modal Clinic Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
Med-VQA(Medical Visual Question Answering)は、より広範なVQA(Visual Question Answering)ドメインにおける重要なサブタスクである。
我々は,ClinKDモデルを導入し,モデル位置エンコーディングと多角化学習プロセスを取り入れた。
我々は、Med-GRIT-270kデータセット上で、最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-09T15:08:10Z) - Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。
これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。
しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文 参考訳(メタデータ) (2024-10-31T11:07:26Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection [6.812281925604158]
本稿ではまず,数ショット設定における画像異常検出の課題に焦点をあてる。
そこで本研究では,CLIPモデルを用いた医用画像異常検出手法であるMediCLIPを提案する。
論文 参考訳(メタデータ) (2024-05-18T15:24:58Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。