論文の概要: Specialist vision-language models for clinical ophthalmology
- arxiv url: http://arxiv.org/abs/2407.08410v1
- Date: Thu, 11 Jul 2024 11:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:49:33.775246
- Title: Specialist vision-language models for clinical ophthalmology
- Title(参考訳): 臨床眼科における視覚言語モデル
- Authors: Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai, Maria Patsiamanidi, Dimitra Mitsopoulou, Paul Hager, Philip Müller, Hendrik P. N. Scholl, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Daniel Rueckert, Sobha Sivaprasad, Andrew J. Lotery, Martin J. Menten,
- Abstract要約: 視覚言語モデル(VLM)は、画像を自動的に解釈し、その結果をテキストとして要約する。
年齢関連黄斑変性症(AMD)患者のケアに欠かせない専門的課題について,眼科医を実践することに比べ,基礎的VLMは明らかに不適合であることが示唆された。
我々のカリキュラムベースのアプローチは、現実の臨床的タスクを扱うための総合的基礎医療用VLMを専門化する青写真を提供する。
- 参考スコア(独自算出の注目度): 8.167708226285932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinicians spend a significant amount of time reviewing medical images and transcribing their findings regarding patient diagnosis, referral and treatment in text form. Vision-language models (VLMs), which automatically interpret images and summarize their findings as text, have enormous potential to alleviate clinical workloads and increase patient access to high-quality medical care. While foundational models have stirred considerable interest in the medical community, it is unclear whether their general capabilities translate to real-world clinical utility. In this work, we show that foundation VLMs markedly underperform compared to practicing ophthalmologists on specialist tasks crucial to the care of patients with age-related macular degeneration (AMD). To address this, we initially identified the essential capabilities required for image-based clinical decision-making, and then developed a curriculum to selectively train VLMs in these skills. The resulting model, RetinaVLM, can be instructed to write reports that significantly outperform those written by leading foundation medical VLMs in disease staging (F1 score of 0.63 vs. 0.11) and patient referral (0.67 vs. 0.39), and approaches the diagnostic performance of junior ophthalmologists (who achieve 0.77 and 0.78 on the respective tasks). Furthermore, in a reader study involving two senior ophthalmologists with up to 32 years of experience, RetinaVLM's reports were found to be similarly correct (78.6% vs. 82.1%) and complete (both 78.6%) as reports written by junior ophthalmologists with up to 10 years of experience. These results demonstrate that our curriculum-based approach provides a blueprint for specializing generalist foundation medical VLMs to handle real-world clinical tasks.
- Abstract(参考訳): 臨床医は、医療画像のレビューにかなりの時間を費やし、患者の診断、紹介、およびテキスト形式の治療に関する知見を翻訳する。
画像を自動的に解釈し、結果をテキストとして要約する視覚言語モデル(VLM)は、臨床業務を緩和し、高品質な医療への患者アクセスを増大させる大きな可能性を秘めている。
基礎モデルは医療コミュニティにかなりの関心を惹き付けてきたが、その一般的な能力が現実の臨床的有用性に通じるかどうかは不明である。
本研究は, 加齢性黄斑変性症(AMD)患者の治療に不可欠な専門的課題について, 眼科医を実践するのに比べ, 基礎的VLMが著しく低下していることを示す。
そこで我々はまず,画像に基づく臨床意思決定に必要な機能を特定し,これらのスキルを学習するためのカリキュラムを開発した。
結果のモデルであるRetinaVLMは、疾患ステージング(F1スコア0.63対0.11)や患者紹介(0.67対0.39)において、主要な基礎医用VLMによって書かれたものよりも大幅に優れるレポートを書くように指示することができ、中等眼科医(それぞれのタスクで0.77と0.78を達成する)の診断性能にアプローチすることができる。
さらに、32年以上の経験を持つ2人の眼科医に関する読者調査では、RetinaVLMの報告も同様に正しい(78.6%対82.1%)こと、そして10年以上の経験を持つ中年眼科医が書いた報告(どちらも78.6%)であることが判明した。
これらの結果から,本カリキュラムをベースとしたアプローチは,現実の臨床的タスクを扱うための総合的基礎医療用VLMを専門とする青写真を提供することが示された。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models [42.13371892174481]
10の公開「医療」大言語モデル(LLM)と2つの視覚言語モデル(VLM)を比較した。
すべての医療用VLMとほぼ全ての医療用LLMは、ゼロ/ファウショットのプロンプトと監督された微調整体制において、ベースモデルよりも一貫して改善されない。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-13T18:50:13Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - A Concept-based Interpretable Model for the Diagnosis of Choroid
Neoplasias using Multimodal Data [28.632437578685842]
我々は成人で最も多い眼がんである脈絡膜新生症(5.1%)に焦点を当てた。
本研究は,3種類の脈絡膜腫瘍を識別する概念に基づく解釈可能なモデルを提案する。
注目すべきは、このモデルがブラックボックスモデルに匹敵するF1スコアの0.91を達成する一方で、ジュニア医師の診断精度を42%向上させることである。
論文 参考訳(メタデータ) (2024-03-08T07:15:53Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。