論文の概要: Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.09209v1
- Date: Sat, 12 Jul 2025 09:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.756576
- Title: Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models
- Title(参考訳): 不確実性駆動型エキスパートコントロール:医療ビジョンランゲージモデルの信頼性を高める
- Authors: Xiao Liang, Di Wang, Zhicheng Jiao, Ronghan Li, Pengfei Yang, Quan Wang, Tat-Seng Chua,
- Abstract要約: 既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.2001050216955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in Vision Language Models (VLMs) have prompted the development of multi-modal medical assistant systems. Despite this progress, current models still have inherent probabilistic uncertainties, often producing erroneous or unverified responses-an issue with serious implications in medical applications. Existing methods aim to enhance the performance of Medical Vision Language Model (MedVLM) by adjusting model structure, fine-tuning with high-quality data, or through preference fine-tuning. However, these training-dependent strategies are costly and still lack sufficient alignment with clinical expertise. To address these issues, we propose an expert-in-the-loop framework named Expert-Controlled Classifier-Free Guidance (Expert-CFG) to align MedVLM with clinical expertise without additional training. This framework introduces an uncertainty estimation strategy to identify unreliable outputs. It then retrieves relevant references to assist experts in highlighting key terms and applies classifier-free guidance to refine the token embeddings of MedVLM, ensuring that the adjusted outputs are correct and align with expert highlights. Evaluations across three medical visual question answering benchmarks demonstrate that the proposed Expert-CFG, with 4.2B parameters and limited expert annotations, outperforms state-of-the-art models with 13B parameters. The results demonstrate the feasibility of deploying such a system in resource-limited settings for clinical use.
- Abstract(参考訳): ビジョン言語モデル(VLM)の急速な進歩は、マルチモーダル医療アシスタントシステムの開発を促している。
この進歩にもかかわらず、現在のモデルには固有の確率的不確実性があり、しばしば誤った、または証明されていない応答を生み出す。
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
しかし、これらの訓練に依存した戦略は費用がかかり、まだ臨床専門知識と十分な整合性がない。
これらの課題に対処するために,MedVLMと臨床専門知識を付加訓練なしで整合させる,Expert-Controlled Classifier-Free Guidance (Expert-CFG) というループ・イン・ループ・フレームワークを提案する。
このフレームワークは信頼できない出力を特定する不確実性推定戦略を導入する。
次に、関連する参照を取得して、キー用語のハイライトを手助けし、MedVLMのトークン埋め込みを洗練させるために分類子なしガイダンスを適用し、調整されたアウトプットが正確で専門家のハイライトと整合することを保証します。
3つの医学的視覚的質問応答ベンチマークによる評価は、提案されたExpert-CFGは4.2Bパラメータと限定された専門家アノテーションを持ち、13Bパラメータの最先端モデルよりも優れていることを示している。
以上の結果から, 臨床利用の資源制限設定において, このようなシステムを展開できることが示唆された。
関連論文リスト
- KERAP: A Knowledge-Enhanced Reasoning Approach for Accurate Zero-shot Diagnosis Prediction Using Multi-agent LLMs [39.47350988195002]
大きな言語モデル(LLM)は、診断予測に言語能力と生物医学的知識を活用することを約束している。
我々は,知識グラフ(KG)を用いた多エージェントアーキテクチャによるLLMに基づく診断予測を改善する推論手法であるKERAPを提案する。
本フレームワークは, マッピング用リンクエージェント, 構造化知識抽出用検索エージェント, 診断予測を反復的に洗練する予測エージェントから構成される。
論文 参考訳(メタデータ) (2025-07-03T16:35:11Z) - Prompt Mechanisms in Medical Imaging: A Comprehensive Survey [18.072753363565322]
深層学習は医療画像に変革をもたらす。
しかし、その臨床導入は、データの不足、分散シフト、堅牢なタスクの一般化の必要性といった課題によって、しばしば妨げられている。
深層学習モデルを導くための重要な戦略として,プロンプトベースの方法論が登場している。
論文 参考訳(メタデータ) (2025-06-28T03:06:25Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Beyond One-Time Validation: A Framework for Adaptive Validation of Prognostic and Diagnostic AI-based Medical Devices [55.319842359034546]
既存のアプローチは、これらのデバイスを実際にデプロイする際の複雑さに対処するのに不足することが多い。
提示されたフレームワークは、デプロイメント中に検証と微調整を繰り返すことの重要性を強調している。
現在の米国とEUの規制分野に位置づけられている。
論文 参考訳(メタデータ) (2024-09-07T11:13:52Z) - Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。
本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文 参考訳(メタデータ) (2024-01-05T15:09:57Z) - Distribution-Free Federated Learning with Conformal Predictions [0.0]
フェデレートラーニングは、患者のプライバシーを維持しながら、別々の機関のデータセットを活用することを目的としている。
キャリブレーションの低さと解釈可能性の欠如は、フェデレートされたモデルの臨床実践への広範な展開を妨げる可能性がある。
本稿では,適応型コンフォメーション・フレームワークを連携学習に組み込むことにより,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-10-14T18:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。