論文の概要: Fine-Tuning MedGemma for Clinical Captioning to Enhance Multimodal RAG over Malaysia CPGs
- arxiv url: http://arxiv.org/abs/2510.15418v1
- Date: Fri, 17 Oct 2025 08:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.533287
- Title: Fine-Tuning MedGemma for Clinical Captioning to Enhance Multimodal RAG over Malaysia CPGs
- Title(参考訳): マレーシアのCPGに対するマルチモーダルRAG導入のための細調整メドゲンマ
- Authors: Lee Qi Zun, Mohamad Zulhilmi Bin Abdul Halim, Goh Man Fye,
- Abstract要約: マレーシアのクリニカル・クリニカル・ガイドラインからファクト・ベース・ガイダンスを提供するためには,検索・拡張ジェネレーションシステムが不可欠である。
本研究では,高忠実度キャプションを生成するためのMedGemmaモデルを提案する。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation systems are essential for providing fact-based guidance from Malaysian Clinical Practice Guidelines. However, their effectiveness with image-based queries is limited, as general Vision-Language Model captions often lack clinical specificity and factual grounding. This study proposes and validates a framework to specialize the MedGemma model for generating high-fidelity captions that serve as superior queries. To overcome data scarcity, we employ a knowledge distillation pipeline to create a synthetic dataset across dermatology, fundus, and chest radiography domains, and fine-tune MedGemma using the parameter-efficient QLoRA method. Performance was rigorously assessed through a dual framework measuring both classification accuracy and, via a novel application of the RAGAS framework, caption faithfulness, relevancy, and correctness. The fine-tuned model demonstrated substantial improvements in classification performance, while RAGAS evaluation confirmed significant gains in caption faithfulness and correctness, validating the models ability to produce reliable, factually grounded descriptions. This work establishes a robust pipeline for specializing medical VLMs and validates the resulting model as a high-quality query generator, laying the groundwork for enhancing multimodal RAG systems in evidence-based clinical decision support.
- Abstract(参考訳): マレーシアのクリニカル・クリニカル・ガイドラインからファクト・ベース・ガイダンスを提供するためには,検索・拡張ジェネレーションシステムが不可欠である。
しかし、画像に基づくクエリの有効性は限定的であり、一般的な視覚言語モデルキャプションには臨床的特異性や事実的根拠が欠如していることが多い。
本研究では,より優れたクエリとして機能する高忠実なキャプションを生成するために,MedGemmaモデルを専門化するためのフレームワークを提案し,検証する。
データ不足を克服するため,我々は知識蒸留パイプラインを用いて,皮膚科領域,眼底領域,胸部X線撮影領域にまたがる合成データセットを作成し,パラメータ効率のよいQLoRA法を用いてMedGemmaを微調整した。
RAGASフレームワークの新たな適用、キャプションの忠実性、妥当性、正確性の両方を測定する2つのフレームワークにより、性能を厳格に評価した。
微調整モデルでは分類性能が大幅に向上し,RAGAS評価ではキャプションの忠実度と正しさが著しく向上し,信頼性,事実的根拠のある記述を生成できるモデルの有効性が検証された。
本研究は、医療用VLMの専門化のための堅牢なパイプラインを構築し、その結果得られたモデルを高品質なクエリジェネレータとして検証し、エビデンスベースの臨床決定支援におけるマルチモーダルRAGシステムの強化の基礎となる。
関連論文リスト
- Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Refine Medical Diagnosis Using Generation Augmented Retrieval and Clinical Practice Guidelines [16.56254046507092]
GARMLE-Gは、医療用言語モデルの出力を権威的ガイドラインに根拠づけた、世代別検索フレームワークである。
従来のRetrieval-Augmented Generationベースのアプローチとは異なり、GARMLE-Gは権威的なガイドラインコンテンツを直接検索することで幻覚のない出力を可能にする。
高血圧診断のためのプロトタイプシステムを開発し, 検索精度, 意味的関連性, 臨床ガイドラインの適合性を実証した。
論文 参考訳(メタデータ) (2025-06-22T11:31:13Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - FODA-PG for Enhanced Medical Imaging Narrative Generation: Adaptive Differentiation of Normal and Abnormal Attributes [26.912139217120874]
FODA-PGは, 組織-分散適応分割グラフフレームワークである。
FODA-PGは、疾患関連属性を別々に「病原性」と「病原性」のカテゴリーに分けることで、放射線学的所見の詳細な表現を構築している。
この微細なセマンティック知識を強力なトランスフォーマーベースのアーキテクチャに統合することにより、FODA-PGは正確かつ臨床的に一貫性のあるレポートを生成する。
論文 参考訳(メタデータ) (2024-09-06T00:04:35Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。