論文の概要: Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback
- arxiv url: http://arxiv.org/abs/2501.01377v2
- Date: Mon, 02 Jun 2025 09:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.970716
- Title: Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback
- Title(参考訳): 異常認識フィードバックによる医用大規模視線モデルの改善
- Authors: Yucheng Zhou, Lingran Song, Jianbing Shen,
- Abstract要約: 医学的異常を明らかにするための新しいUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
- 参考スコア(独自算出の注目度): 57.98393950821579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Medical Large Vision-Language Models (Med-LVLMs), encapsulating extensive medical knowledge, demonstrate excellent capabilities in understanding medical images. However, there remain challenges in visual localization in medical images, which is crucial for abnormality detection and interpretation. To address these issues, we propose a novel UMed-LVLM designed to unveil medical abnormalities. Specifically, we collect a Medical Abnormalities Unveiling (MAU) dataset and propose a two-stage training method for UMed-LVLM training. To collect MAU dataset, we propose a prompt method utilizing the GPT-4V to generate diagnoses based on identified abnormal areas in medical images. Moreover, the two-stage training method includes Abnormal-Aware Instruction Tuning and Abnormal-Aware Rewarding, comprising Relevance Reward, Abnormal Localization Reward and Vision Relevance Reward. Experimental results demonstrate that our UMed-LVLM significantly outperforms existing Med-LVLMs in identifying and understanding medical abnormalities, achieving a 58% improvement over the baseline. In addition, this work shows that enhancing the abnormality detection capabilities of Med-LVLMs significantly improves their understanding of medical images and generalization capability.
- Abstract(参考訳): 医学的知識をカプセル化した既存の医用大規模視線モデル(Med-LVLMs)は,医用画像の理解に優れた能力を示している。
しかし, 医用画像の視覚的局在化には依然として課題があり, 異常検出と解釈に不可欠である。
これらの課題に対処するために,医学的異常を明らかにするための新しいUMed-LVLMを提案する。
具体的には,MAUデータセットを収集し,UMed-LVLMトレーニングのための2段階トレーニング手法を提案する。
そこで本研究では,医用画像の異常領域を同定し,GPT-4Vを用いて診断を行う手法を提案する。
さらに、当該2段階訓練方法は、関連リワード、異常局所化リワード、およびビジョンリワードを含む異常認識命令調整及び異常認識リワードを含む。
実験の結果, UMed-LVLMは既存のMed-LVLMより有意に優れ, 58%の改善が得られた。
さらに,Med-LVLMの異常検出能力の向上は,医用画像の理解と一般化能力を大幅に向上させることを示す。
関連論文リスト
- MedM-VL: What Makes a Good Medical LVLM? [17.94998411263113]
大規模視覚言語モデル(LVLM)は、複雑な医療課題を解決するための新しいソリューションを提供する。
2次元および3次元の医療用LVLMのモデルアーキテクチャとトレーニング戦略を探求するために、人気のあるLLaVAフレームワークを構築した。
MedM-VL-2D, MedM-VL-CT-Chest, MedM-VL-CT-Chestの2つの事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2025-04-06T01:44:46Z) - Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions [11.503540826701807]
本稿では,医学的異常検出と局所化におけるVLM性能向上のための新しいアプローチを提案する。
医療概念を基本的な属性と一般的な視覚パターンに分解することに注力する。
提案手法を0.23B Florence-2ベースモデルで評価し,より大きな7B LLaVAベースの医療用VLMと同等の性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T09:02:33Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - CoMT: Chain-of-Medical-Thought Reduces Hallucination in Medical Report Generation [20.59298361626719]
医療報告生成における幻覚を緩和するためのチェーン・オブ・メディカル・シント・アプローチ(CoMT)を提案する。
CoMTは、診断手順を分解することで、人間の医師の認知過程を模倣しようとしている。
論文 参考訳(メタデータ) (2024-06-17T12:03:32Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection [6.812281925604158]
本稿ではまず,数ショット設定における画像異常検出の課題に焦点をあてる。
そこで本研究では,CLIPモデルを用いた医用画像異常検出手法であるMediCLIPを提案する。
論文 参考訳(メタデータ) (2024-05-18T15:24:58Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。