Fugu-MT 論文翻訳(概要): Specialist vision-language models for clinical ophthalmology

論文の概要: Specialist vision-language models for clinical ophthalmology

arxiv url: http://arxiv.org/abs/2407.08410v1
Date: Thu, 11 Jul 2024 11:31:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 17:49:33.775246
Title: Specialist vision-language models for clinical ophthalmology
Title（参考訳）: 臨床眼科における視覚言語モデル
Authors: Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai, Maria Patsiamanidi, Dimitra Mitsopoulou, Paul Hager, Philip Müller, Hendrik P. N. Scholl, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Daniel Rueckert, Sobha Sivaprasad, Andrew J. Lotery, Martin J. Menten,
Abstract要約: 視覚言語モデル(VLM)は、画像を自動的に解釈し、その結果をテキストとして要約する。年齢関連黄斑変性症(AMD)患者のケアに欠かせない専門的課題について,眼科医を実践することに比べ,基礎的VLMは明らかに不適合であることが示唆された。我々のカリキュラムベースのアプローチは、現実の臨床的タスクを扱うための総合的基礎医療用VLMを専門化する青写真を提供する。
参考スコア（独自算出の注目度）: 8.167708226285932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Clinicians spend a significant amount of time reviewing medical images and transcribing their findings regarding patient diagnosis, referral and treatment in text form. Vision-language models (VLMs), which automatically interpret images and summarize their findings as text, have enormous potential to alleviate clinical workloads and increase patient access to high-quality medical care. While foundational models have stirred considerable interest in the medical community, it is unclear whether their general capabilities translate to real-world clinical utility. In this work, we show that foundation VLMs markedly underperform compared to practicing ophthalmologists on specialist tasks crucial to the care of patients with age-related macular degeneration (AMD). To address this, we initially identified the essential capabilities required for image-based clinical decision-making, and then developed a curriculum to selectively train VLMs in these skills. The resulting model, RetinaVLM, can be instructed to write reports that significantly outperform those written by leading foundation medical VLMs in disease staging (F1 score of 0.63 vs. 0.11) and patient referral (0.67 vs. 0.39), and approaches the diagnostic performance of junior ophthalmologists (who achieve 0.77 and 0.78 on the respective tasks). Furthermore, in a reader study involving two senior ophthalmologists with up to 32 years of experience, RetinaVLM's reports were found to be similarly correct (78.6% vs. 82.1%) and complete (both 78.6%) as reports written by junior ophthalmologists with up to 10 years of experience. These results demonstrate that our curriculum-based approach provides a blueprint for specializing generalist foundation medical VLMs to handle real-world clinical tasks.
Abstract（参考訳）: 臨床医は、医療画像のレビューにかなりの時間を費やし、患者の診断、紹介、およびテキスト形式の治療に関する知見を翻訳する。画像を自動的に解釈し、結果をテキストとして要約する視覚言語モデル(VLM)は、臨床業務を緩和し、高品質な医療への患者アクセスを増大させる大きな可能性を秘めている。基礎モデルは医療コミュニティにかなりの関心を惹き付けてきたが、その一般的な能力が現実の臨床的有用性に通じるかどうかは不明である。本研究は, 加齢性黄斑変性症(AMD)患者の治療に不可欠な専門的課題について, 眼科医を実践するのに比べ, 基礎的VLMが著しく低下していることを示す。そこで我々はまず,画像に基づく臨床意思決定に必要な機能を特定し,これらのスキルを学習するためのカリキュラムを開発した。結果のモデルであるRetinaVLMは、疾患ステージング(F1スコア0.63対0.11)や患者紹介(0.67対0.39)において、主要な基礎医用VLMによって書かれたものよりも大幅に優れるレポートを書くように指示することができ、中等眼科医(それぞれのタスクで0.77と0.78を達成する)の診断性能にアプローチすることができる。さらに、32年以上の経験を持つ2人の眼科医に関する読者調査では、RetinaVLMの報告も同様に正しい(78.6%対82.1%)こと、そして10年以上の経験を持つ中年眼科医が書いた報告(どちらも78.6%)であることが判明した。これらの結果から,本カリキュラムをベースとしたアプローチは,現実の臨床的タスクを扱うための総合的基礎医療用VLMを専門とする青写真を提供することが示された。

関連論文リスト

How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文参考訳（メタデータ） (2025-07-15T11:12:39Z)
EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文参考訳（メタデータ） (2025-04-18T12:09:15Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models [42.13371892174481]
10の公開「医療」大言語モデル(LLM)と2つの視覚言語モデル(VLM)を比較した。すべての医療用VLMとほぼ全ての医療用LLMは、ゼロ/ファウショットのプロンプトと監督された微調整体制において、ベースモデルよりも一貫して改善されない。以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文参考訳（メタデータ） (2024-11-13T18:50:13Z)
A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients [19.777109737517996]
本研究の目的は,大規模言語モデル(LLM)が手動要約の負担を軽減することにある。本研究は, GPT-3.5, GPT-4, GPT-4o, LLaMA 3 8bを含む複数のLCMの放電サマリー生成性能について検討した。
論文参考訳（メタデータ） (2024-11-06T10:02:50Z)
Enhancing Community Vision Screening -- AI Driven Retinal Photography for Early Disease Detection and Patient Trust [17.849524259801765]
コミュニティビジョンスクリーニングは、視覚障害のある個人を識別し、回避可能な盲目を防ぐ上で重要な役割を担っている。眼疾患関連視力喪失の患者を、さらに治療のために第三次眼科センターにスクリーニングし、参照するための、シンプルで効率的なプロセスの必要性が高まっている。本稿では, 単純で非侵襲的な網膜写真に基づくECVS(Enhancing Community Vision Screening)ソリューションについて紹介する。
論文参考訳（メタデータ） (2024-10-27T02:31:19Z)
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文参考訳（メタデータ） (2024-10-19T02:35:35Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。 EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文参考訳（メタデータ） (2024-06-17T08:40:36Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
A Concept-based Interpretable Model for the Diagnosis of Choroid Neoplasias using Multimodal Data [28.632437578685842]
我々は成人で最も多い眼がんである脈絡膜新生症(5.1%)に焦点を当てた。本研究は,3種類の脈絡膜腫瘍を識別する概念に基づく解釈可能なモデルを提案する。注目すべきは、このモデルがブラックボックスモデルに匹敵するF1スコアの0.91を達成する一方で、ジュニア医師の診断精度を42%向上させることである。
論文参考訳（メタデータ） (2024-03-08T07:15:53Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。