Fugu-MT 論文翻訳(概要): Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering

論文の概要: Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering

arxiv url: http://arxiv.org/abs/2407.21368v1
Date: Wed, 31 Jul 2024 06:34:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 18:41:45.416120
Title: Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering
Title（参考訳）: 視力検査による診断のための医用大規模視線モデルの提案
Authors: Danfeng Guo, Demetri Terzopoulos,
Abstract要約: 本稿では,幻覚を減らし,VQA性能を向上させるMLVLMの2つのプロンプト戦略を提案する。 MIMIC-CXR-JPGおよびChexpertデータセットを用いて検討したところ,診断精度は有意に向上した。 POPE測定値に基づいて、既存のLVLMの偽陰性予測を効果的に抑制し、リコールを約0.07改善する。
参考スコア（独自算出の注目度）: 6.087954428369633
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) have achieved significant success in recent years, and they have been extended to the medical domain. Although demonstrating satisfactory performance on medical Visual Question Answering (VQA) tasks, Medical LVLMs (MLVLMs) suffer from the hallucination problem, which makes them fail to diagnose complex pathologies. Moreover, they readily fail to learn minority pathologies due to imbalanced training data. We propose two prompting strategies for MLVLMs that reduce hallucination and improve VQA performance. In the first strategy, we provide a detailed explanation of the queried pathology. In the second strategy, we fine-tune a cheap, weak learner to achieve high performance on a specific metric, and textually provide its judgment to the MLVLM. Tested on the MIMIC-CXR-JPG and Chexpert datasets, our methods significantly improve the diagnostic F1 score, with the highest increase being 0.27. We also demonstrate that our prompting strategies can be extended to general LVLM domains. Based on POPE metrics, it effectively suppresses the false negative predictions of existing LVLMs and improves Recall by approximately 0.07.
Abstract（参考訳）: 近年、LVLM(Large Vision-Language Models)は大きな成功を収めており、医療分野にも拡張されている。医療用視覚質問応答(VQA)タスクにおいて満足なパフォーマンスを示す一方で、医療用LVLM(MLVLM)は幻覚障害に悩まされ、複雑な病態の診断に失敗する。さらに,不均衡なトレーニングデータにより,マイノリティーな病理の学習に失敗する。本稿では,幻覚を減らし,VQA性能を向上させるMLVLMの2つのプロンプト戦略を提案する。第1の戦略では、クエリされた病理の詳細な説明を提供する。第2の戦略では、安価で弱い学習者を微調整し、特定のメトリクスで高い性能を達成し、MLVLMにその判断をテキストで提供する。 MIMIC-CXR-JPGおよびChexpertデータセットを用いて測定したところ,診断精度は0.27。また、我々のプロンプト戦略が一般のLVLMドメインに拡張可能であることを示す。 POPE測定値に基づいて、既存のLVLMの偽陰性予測を効果的に抑制し、リコールを約0.07改善する。

関連論文リスト

Memory-enhanced Retrieval Augmentation for Long Video Understanding [91.7163732531159]
本稿では,メモリ強化型RAGベースの新しいアプローチであるMemVidを紹介する。提案手法は,1) 全体的映像情報の記憶,2) メモリに基づくタスクの情報要求の推論,3) 情報要求に基づくクリティカルモーメントの検索,4) 最終回答を生成するための検索モーメントの抽出という4つの基本的なステップで機能する。 MemVid は LVLM 法と RAG 法に比較して, 効率と有効性を示す。
論文参考訳（メタデータ） (2025-03-12T08:23:32Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
MedHEval: Benchmarking Hallucinations and Mitigation Strategies in Medical Large Vision-Language Models [37.78272983522441]
医療分野においてLVLM(Large Vision Language Models)の重要性が高まっている。 MedHEvalは、Med-LVLMの幻覚と緩和戦略を体系的に評価する新しいベンチマークである。我々は,11個のLVLM(Med-LVLM)を用いて実験を行い,7つの最先端の幻覚緩和技術を評価した。
論文参考訳（メタデータ） (2025-03-04T00:40:09Z)
Med-R$^2$: Crafting Trustworthy LLM Physicians through Retrieval and Reasoning of Evidence-Based Medicine [39.80703772263271]
我々は,Evidence-Based Medicine(EBM)プロセスに準拠したLarge Language Models(LLM)の新しいフレームワークであるMed-R2を紹介する。実験の結果, Med-R2はバニラRAG法よりも14.87%改善し, 微調整法に比べて3.59%向上した。
論文参考訳（メタデータ） (2025-01-21T04:40:43Z)
Training Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
本報告では,Unveiling Medicalnomaitiesを用いたUMed-LVLMを提案する。本稿では,GPT-4Vを用いた診断手法を提案する。実験の結果, UMed-LVLMは既存のMed-LVLMを上回り, 医学的異常を同定し, 理解していることがわかった。
論文参考訳（メタデータ） (2025-01-02T17:37:20Z)
Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文参考訳（メタデータ） (2024-08-06T08:10:34Z)
MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文参考訳（メタデータ） (2024-07-03T00:59:03Z)
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文参考訳（メタデータ） (2024-02-14T13:51:56Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。 Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文参考訳（メタデータ） (2023-09-27T21:26:03Z)
Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。 LVLMは今でも幻覚に悩まされている。幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文参考訳（メタデータ） (2023-08-29T08:51:24Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。