論文の概要: LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation
- arxiv url: http://arxiv.org/abs/2410.03740v3
- Date: Fri, 07 Nov 2025 03:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 18:58:55.522933
- Title: LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation
- Title(参考訳): LEME:先進的推論と臨床検証を伴う眼科大言語モデル
- Authors: Hyunjae Kim, Xuguang Ai, Sahana Srinivasan, Aidan Gilson, Maxwell B. Singer, Krithi Pushpanathan, Qianqian Xie, Jungwoo Park, Serina Applebaum, Gabriel Dawei Yang, Minjie Zou, David Ziyou Chen, Ke Zou, Soshian Sarrafpour, Ji Liu, Yu Yin, Jimin Huang, Quang Ngoc Nguyen, Erping Long, Peixing Wan, Dianbo Liu, Richard Hintz, W. Jim Zheng, Sophia Y. Wang, Lucila Ohno-Machado, Hua Xu, Ron A. Adelman, Luciano V. Del Priore, Yih-Chung Tham, Qingyu Chen,
- Abstract要約: 大規模言語モデル(LLM)は、ドキュメントの作業量を削減し、臨床的な意思決定をサポートする、有望なパスを提供する。
本稿では,2段階プロセスで開発したオープンウェイトLLMのスイートであるLEMEについて述べる。
LEMEは、患者QA、相談、治療計画などのタスクにまたがる5つのゼロショットベンチマークで評価された。
- 参考スコア(独自算出の注目度): 29.913581347375256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rising prevalence of eye diseases poses a growing public health burden. Large language models (LLMs) offer a promising path to reduce documentation workload and support clinical decision-making. However, few have been tailored for ophthalmology, and most evaluations focus mainly on knowledge-based QA without clinically relevant benchmarks or real-world validation. Here, we present LEME, a suite of open-weight LLMs developed through a two-stage process: (1) instruction tuning on 200,000 samples from clinical guidelines, textbooks, and case reports to enhance reasoning and task-following, and (2) reinforcement learning with ~30,000 preference labels to enhance accuracy and informativeness. LEME was evaluated on five curated zero-shot benchmarks spanning tasks such as patient QA, consultation, and treatment planning. It outperformed all seven baselines (all p < 0.004), exceeding GPT-4o by 3.32% (absolute ROUGE-L gain). It was further evaluated on three downstream tasks using deidentified patient data, reviewed by clinicians. In patient QA, LEME received the highest ratings from attending clinicians in 3 out of 4 criteria, with scores of 4.67 for factuality, 4.77 for specificity, 4.79 for completeness, and 4.88 for safety (1-5 scale). Its completeness score surpassed that of expert-written answers (4.79 vs. 4.56; p = 0.015). In visual acuity extraction, LEME achieved the highest F1, outperforming LLaMA-3 by 14.1% and Eye-LLaMA by 59.0%. In a pilot evaluation on assessment and treatment planning for diabetic retinopathy, AMD, and glaucoma, LEME received scores of 4.36 for factuality, 4.55 for specificity, 4.42 for completeness, and 4.36 for safety, approaching attending-level performance. All models, data, and code will be released to support further development and clinical translation, laying the groundwork for improved efficiency and patient care
- Abstract(参考訳): 眼疾患の流行は公衆衛生の負担を増大させる。
大規模言語モデル(LLM)は、ドキュメントの作業量を削減し、臨床的な意思決定をサポートする、有望なパスを提供する。
しかし、眼科に特化しているものはほとんどなく、ほとんどの評価は、臨床的に関連するベンチマークや実世界の検証を伴わない知識ベースのQAに重点を置いている。
ここでは,(1)臨床ガイドライン,教科書,事例報告から20万件のサンプルを指導し,推論とタスクフォローを強化し,(2)精度と情報性を高めるために,約30,000の選好ラベルを用いた強化学習を行う。
LEMEは、患者QA、相談、治療計画などのタスクにまたがる5つのゼロショットベンチマークで評価された。
7つのベースライン(全てp < 0.004)は全てGPT-4oを3.32%上回った(ROUGE-Lゲイン)。
さらに, 患者データを用いた下流3つの課題について, 臨床医による検討を行った。
患者QAにおいて、LEMEは4つの基準のうち3つの基準で入院医から最高評価を受け、事実性は4.67点、特異性は4.77点、完全性は4.79点、安全性は4.88点であった。
完全性スコアは専門家による回答(4.79 vs. 4.56; p = 0.015)を上回った。
視力抽出では、LEMEはLLaMA-3を14.1%、Eye-LLaMAを59.0%上回った。
糖尿病網膜症,AMD,緑内障に対する評価と治療計画のパイロット評価において,LEMEは事実性4.36点,特異性4.55点,完全性4.42点,安全性4.36点のスコアを得た。
すべてのモデル、データ、コードがリリースされ、さらなる開発と臨床翻訳をサポートし、効率と患者のケアを改善するための基盤となる。
関連論文リスト
- BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning [4.765373980518581]
BELOは、眼科関連の臨床的精度と推論品質の評価ベンチマークである。
5つのソースから集計された900の高品質で専門家レビューされた質問で構成されている。
透明な評価と報告を促進するために、公共のリーダーボードが設けられている。
論文 参考訳(メタデータ) (2025-07-21T15:27:32Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation [56.49084589053732]
VLM(Vision-Language Models)は、様々なアプリケーションで成功を収めてきたが、関連性判断を支援する可能性はまだ不明である。
本稿では,CLIP,LLaVA,GPT-4Vを含むVLMの関連性評価機能について,ゼロショット方式でマルチメディアコンテンツ作成に適した大規模テキスト分割ホック検索タスクで評価する。
論文 参考訳(メタデータ) (2024-08-02T16:15:25Z) - Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3593941384437792]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。
当初、ゼロショットインコンテキスト学習を用いて、全タスクにまたがる5つのオープンウェイトLCMを評価した。
LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文 参考訳(メタデータ) (2024-05-23T16:33:18Z) - Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入する。
我々のモデルであるLLaMA-Clinicは、医師が作成したものと同等の品質の臨床メモを生成することができる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - A Dataset and Benchmark for Hospital Course Summarization with Adapted Large Language Models [4.091402760759184]
大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、医療応用の能力は示されていない。
臨床ノートと短い病院コースをカプセル化したMIMIC-IV-BHC(MIMIC-IV-BHC)を導入した。
臨床ノートを入力として,3つのオープンソースLSMと2つの独自LSMに対して,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。
論文 参考訳(メタデータ) (2024-03-08T23:17:55Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。