論文の概要: PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis
- arxiv url: http://arxiv.org/abs/2601.10945v1
- Date: Fri, 16 Jan 2026 02:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.334992
- Title: PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis
- Title(参考訳): patientVLM と DocVLM: 効率的な診断のための視覚言語モデル間の事前理解対話
- Authors: K Lokesh, Abhirama Subramanyam Penamakuri, Uday Agarwal, Apoorva Challa, Shreya K Gowda, Somesh Gupta, Anand Mishra,
- Abstract要約: 実世界の診断手順を模倣したPCDF(Pre-Consultation Dialogue Framework)を提案する。
具体的には,2つの視覚言語モデル(VLM)間の診断対話をシミュレートする。画像と対話履歴に基づいてフォローアップ質問を生成するDocVLMと,地上構造診断から得られた症状プロファイルを用いて応答するPatentVLMである。
- 参考スコア(独自算出の注目度): 4.118962495816488
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditionally, AI research in medical diagnosis has largely centered on image analysis. While this has led to notable advancements, the absence of patient-reported symptoms continues to hinder diagnostic accuracy. To address this, we propose a Pre-Consultation Dialogue Framework (PCDF) that mimics real-world diagnostic procedures, where doctors iteratively query patients before reaching a conclusion. Specifically, we simulate diagnostic dialogues between two vision-language models (VLMs): a DocVLM, which generates follow-up questions based on the image and dialogue history, and a PatientVLM, which responds using a symptom profile derived from the ground-truth diagnosis. We additionally conducted a small-scale clinical validation of the synthetic symptoms generated by our framework, with licensed clinicians confirming their clinical relevance, symptom coverage, and overall realism. These findings indicate that the resulting DocVLM-PatientVLM interactions form coherent, multi-turn consultations paired with images and diagnoses, which we then use to fine-tune the DocVLM. This dialogue-based supervision leads to substantial gains over image-only training, highlighting the value of realistic symptom elicitation for diagnosis.
- Abstract(参考訳): 伝統的に、医学的診断におけるAI研究は主に画像分析に重点を置いている。
これは顕著な進歩をもたらしたが、患者に報告された症状がないことは、診断の正確さを妨げ続けている。
これを解決するために,医師が結論に達する前に反復的に患者に問い合わせる実世界の診断手順を模倣するPCDF(Pre-Consultation Dialogue Framework)を提案する。
具体的には,2つの視覚言語モデル(VLM)間の診断対話をシミュレートする。画像と対話履歴に基づいてフォローアップ質問を生成するDocVLMと,地上構造診断から得られた症状プロファイルを用いて応答するPatentVLMである。
また,本フレームワークが生み出す合成症状の小規模な臨床的検証を行い,臨床関連性,症状カバレッジ,全身的リアリズムを確認した。
これらの結果から, DocVLM-PatientVLM相互作用は, 画像と診断を併用したコヒーレントなマルチターンコンサルテーションを形成し, DocVLMを微調整する。
この対話に基づく指導は、画像のみのトレーニングよりも大幅に向上し、診断のためのリアルな症状誘発の価値を強調している。
関連論文リスト
- ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-11T22:23:38Z) - Advancing Conversational Diagnostic AI with Multimodal Reasoning [44.1996223689966]
アーティキュレート・メディカル・インテリジェンス・エクスプローラー(AMIE)
システムは、対話フローを中間モデル出力によって動的に制御する状態認識対話フレームワークを実装している。
患者アクターとのチャットベースの相談の無作為で盲目なOSCEスタイルの研究において, AMIEをプライマリケア医師(PCP)と比較した。
論文 参考訳(メタデータ) (2025-05-06T20:52:01Z) - ProMRVL-CAD: Proactive Dialogue System with Multi-Round Vision-Language Interactions for Computer-Aided Diagnosis [0.7430974817507225]
コンピュータ支援診断(ProMRVL-CAD)のためのLLMベースの対話システム、すなわちプロアクティブな多ラウンド視覚言語インタラクションを開発する。
提案した ProMRVL-CAD システムでは,患者に対して,知識グラフをレコメンデーションシステムに統合することにより,一定の医療アクセスを提供することができる。
論文 参考訳(メタデータ) (2025-02-15T01:14:23Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Medical Dialogue Generation via Intuitive-then-Analytical Differential
Diagnosis [14.17497921394565]
Intuitive-then-Analytic Differential Diagnosis (IADDx) を用いた医用対話生成フレームワークを提案する。
本手法は,検索に基づく直感的アソシエーション(直感的アソシエーション)によるディファレンス診断から始まり,その後,グラフ強化解析手法により精査する。
提案手法の有効性を2つのデータセットで検証した。
論文 参考訳(メタデータ) (2024-01-12T12:35:19Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。