論文の概要: MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization
- arxiv url: http://arxiv.org/abs/2412.06141v1
- Date: Mon, 09 Dec 2024 01:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:20.666142
- Title: MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization
- Title(参考訳): MMedPO:臨床対応型マルチモーダル選好最適化を用いた医用ビジョンランゲージモデルの調整
- Authors: Kangyu Zhu, Peng Xia, Yun Li, Hongtu Zhu, Sheng Wang, Huaxiu Yao,
- Abstract要約: 我々は,新しいマルチモーダル医療優先最適化手法MMedPOを提案する。
MMedPOは、Med-LVLMアライメントを高めるために、嗜好サンプルの臨床的関連性を考慮する。
実験の結果,MMedPOはMed-LVLMの精度を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 25.937453082034448
- License:
- Abstract: The advancement of Large Vision-Language Models (LVLMs) has propelled their application in the medical field. However, Medical LVLMs (Med-LVLMs) encounter factuality challenges due to modality misalignment, where the models prioritize textual knowledge over visual input, leading to hallucinations that contradict information in medical images. Previous attempts to enhance modality alignment in Med-LVLMs through preference optimization have inadequately mitigated clinical relevance in preference data, making these samples easily distinguishable and reducing alignment effectiveness. To address this challenge, we propose MMedPO, a novel multimodal medical preference optimization approach that considers the clinical relevance of preference samples to enhance Med-LVLM alignment. MMedPO curates multimodal preference data by introducing two types of dispreference: (1) plausible hallucinations injected through target Med-LVLMs or GPT-4o to produce medically inaccurate responses, and (2) lesion region neglect achieved through local lesion-noising, disrupting visual understanding of critical areas. We then calculate clinical relevance for each sample based on scores from multiple Med-LLMs and visual tools, and integrate these scores into the preference optimization process as weights, enabling effective alignment. Our experiments demonstrate that MMedPO significantly enhances factual accuracy in Med-LVLMs, achieving substantial improvements over existing preference optimization methods by averaging 14.2% and 51.7% across the Med-VQA and report generation tasks. Our code are available in https://github.com/aiming-lab/MMedPO.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の進歩は、医療分野への応用を推進している。
しかし、医療用LVLM(Med-LVLMs)は、モデルが視覚入力よりもテキスト知識を優先し、医用画像の情報に矛盾する幻覚をもたらすという、モダリティの不一致による現実性の課題に直面している。
選好最適化によるMed-LVLMのモダリティアライメント向上の試みは、選好データにおける臨床的関連性が不十分であり、これらのサンプルを識別しやすくし、アライメント効率を低下させる。
この課題に対処するために,Med-LVLMアライメントを高めるために,選好サンプルの臨床的関連性を検討する,新しいマルチモーダル医療選好最適化手法MMedPOを提案する。
MMedPOは,(1)ターゲットMed-LVLMまたはGPT-4oを介して注入された可視性幻覚を医学的不正確な反応を生じさせ,(2)局所的な病変をノイズ化し,重要な領域の視覚的理解を損なうことによって達成される病変領域を無視する,という2つの解釈を導入して,マルチモーダルな嗜好データをキュレートする。
次に、複数のMed-LLMと視覚ツールのスコアに基づいて、各サンプルの臨床的関連性を算出し、これらのスコアを重みとして優先最適化プロセスに統合し、効果的なアライメントを実現する。
実験の結果,MMedPOはMed-LVLMの実際の精度を大幅に向上し,Med-VQAおよびレポート生成タスクの平均14.2%,51.7%の精度向上を実現している。
私たちのコードはhttps://github.com/aiming-lab/MMedPOで利用可能です。
関連論文リスト
- Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Aligning (Medical) LLMs for (Counterfactual) Fairness [2.089191490381739]
大規模言語モデル(LLM)は、医療および臨床決定支援アプリケーションのための有望なソリューションとして登場した。
LLMは様々な種類のバイアスを受けており、個人の不公平な扱い、健康格差の悪化、AIが強化された医療ツールへの信頼の低下につながる可能性がある。
本稿では, 知識蒸留フレームワークにおける優先最適化手法を用いて, LLMの整列化のための新しいモデルアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T01:11:27Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z) - Med42 -- Evaluating Fine-Tuning Strategies for Medical LLMs: Full-Parameter vs. Parameter-Efficient Approaches [7.3384872719063114]
我々は,Llama-2アーキテクチャに基づく医療用大規模言語モデル(LLM)を開発し,改良した。
本実験は,様々な医用ベンチマークを用いて,これらのチューニング戦略の有効性を体系的に評価した。
論文 参考訳(メタデータ) (2024-04-23T06:36:21Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。