論文の概要: CLARIFY: A Specialist-Generalist Framework for Accurate and Lightweight Dermatological Visual Question Answering
- arxiv url: http://arxiv.org/abs/2508.18430v1
- Date: Mon, 25 Aug 2025 19:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.567186
- Title: CLARIFY: A Specialist-Generalist Framework for Accurate and Lightweight Dermatological Visual Question Answering
- Title(参考訳): CLARIFY: 高精度で軽量な視覚的質問応答のためのスペシャリスト・ジェネリスト・フレームワーク
- Authors: Aranya Saha, Tanvir Ahmed Khan, Ismam Nur Swapnil, Mohammad Ariful Haque,
- Abstract要約: 皮膚科視覚質問応答(VQA)を専門とするCLARIFYについて紹介する。
CLARIFYは、(i)高速かつ高精度な診断予測を提供する軽量な領域学習画像分類器(スペシャリスト)と(ii)ユーザクエリに対する自然言語説明を生成する強力な圧縮された会話型VLM(ジェネラリスト)の2つのコンポーネントを組み合わせる。
その結果, CLARIFYは最強基線に対する診断精度が18%向上することが確認された。
- 参考スコア(独自算出の注目度): 0.5310914438304387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown significant potential for medical tasks; however, their general-purpose nature can limit specialized diagnostic accuracy, and their large size poses substantial inference costs for real-world clinical deployment. To address these challenges, we introduce CLARIFY, a Specialist-Generalist framework for dermatological visual question answering (VQA). CLARIFY combines two components: (i) a lightweight, domain-trained image classifier (the Specialist) that provides fast and highly accurate diagnostic predictions, and (ii) a powerful yet compressed conversational VLM (the Generalist) that generates natural language explanations to user queries. In our framework, the Specialist's predictions directly guide the Generalist's reasoning, focusing it on the correct diagnostic path. This synergy is further enhanced by a knowledge graph-based retrieval module, which grounds the Generalist's responses in factual dermatological knowledge, ensuring both accuracy and reliability. This hierarchical design not only reduces diagnostic errors but also significantly improves computational efficiency. Experiments on our curated multimodal dermatology dataset demonstrate that CLARIFY achieves an 18\% improvement in diagnostic accuracy over the strongest baseline, a fine-tuned, uncompressed single-line VLM, while reducing the average VRAM requirement and latency by at least 20\% and 5\%, respectively. These results indicate that a Specialist-Generalist system provides a practical and powerful paradigm for building lightweight, trustworthy, and clinically viable AI systems.
- Abstract(参考訳): 視覚言語モデル (VLM) は医学的タスクにおいて有意義な可能性を示しているが、その汎用性は専門的な診断精度を制限し、その大きなサイズは実際の臨床展開に相当な推論コストをもたらす。
これらの課題に対処するために,皮膚科的視覚的質問応答(VQA)を専門とするCLARIFYを紹介した。
CLARIFYは2つのコンポーネントを組み合わせる。
一 迅速かつ高精度な診断予測を提供する軽量領域学習画像分類器(スペシャリスト)
(II) ユーザクエリに対する自然言語説明を生成する強力な圧縮された会話型VLM(ジェネリスト)。
我々の枠組みでは、スペシャリストの予測はジェネラリストの推論を直接導き、正しい診断経路に焦点をあてる。
このシナジーは知識グラフに基づく検索モジュールによってさらに強化され、これはジェネラリストの反応を実際の皮膚学的な知識で根拠付け、精度と信頼性の両方を保証する。
この階層設計は診断ミスを減らすだけでなく、計算効率を大幅に改善する。
キュレートしたマルチモーダル皮膚科データセットの実験により,CLARIFYは最強ベースライン,微調整,非圧縮の単行VLMに対して,診断精度を18倍に向上し,平均VRAM要求と遅延を少なくとも20倍,5倍に低減した。
これらの結果は、軽量で信頼性が高く、臨床的に実行可能なAIシステムを構築するために、スペシャリスト・ジェネリストシステムが実用的で強力なパラダイムを提供することを示している。
関連論文リスト
- A Chain of Diagnosis Framework for Accurate and Explainable Radiology Report Generation [4.61181046331792]
臨床的に正確かつ説明可能なRRGの診断過程の連鎖を維持できる,診断の連鎖(CoD)というフレームワークを提案する。
説明可能性を高めるために、診断基盤モジュールは、診断が参照として機能するQA診断と生成された文とを一致させるように設計されている。
本研究は,1)QAペアと病変箱を用いた完全ラベルRRGデータセット,2)病変位置と重症度を記述した報告の精度を評価するための評価ツール,3)CoDの有効性を実証するための広範な実験に導いた。
論文 参考訳(メタデータ) (2025-08-13T07:32:28Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - KERAP: A Knowledge-Enhanced Reasoning Approach for Accurate Zero-shot Diagnosis Prediction Using Multi-agent LLMs [39.47350988195002]
大きな言語モデル(LLM)は、診断予測に言語能力と生物医学的知識を活用することを約束している。
我々は,知識グラフ(KG)を用いた多エージェントアーキテクチャによるLLMに基づく診断予測を改善する推論手法であるKERAPを提案する。
本フレームワークは, マッピング用リンクエージェント, 構造化知識抽出用検索エージェント, 診断予測を反復的に洗練する予測エージェントから構成される。
論文 参考訳(メタデータ) (2025-07-03T16:35:11Z) - PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue [2.657193510259712]
PRISM2は、臨床対話を通して訓練された多モードスライドレベルの基礎モデルであり、スケーラブルで一般化可能な病理学AIを実現する。
PRISM2は、70万近い標本(230万WSI)と実際の臨床診断報告を2段階のプロセスで組み合わせて訓練されている。
PRISMやTITANといった従来のスライドレベルのモデルよりも優れており、診断およびバイオマーカー予測タスクにおいて高い性能を発揮する。
論文 参考訳(メタデータ) (2025-06-16T03:12:51Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。