論文の概要: BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning
- arxiv url: http://arxiv.org/abs/2507.15717v1
- Date: Mon, 21 Jul 2025 15:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.459082
- Title: BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning
- Title(参考訳): 眼科領域におけるBenchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning (特集 眼科領域におけるバイオサイバネティックス)
- Authors: Sahana Srinivasan, Xuguang Ai, Thaddaeus Wai Soon Lo, Aidan Gilson, Minjie Zou, Ke Zou, Hyunjae Kim, Mingjia Yang, Krithi Pushpanathan, Samantha Yew, Wan Ting Loke, Jocelyn Goh, Yibing Chen, Yiming Kong, Emily Yuelei Fu, Michelle Ongyong Hui, Kristen Nwanyanwu, Amisha Dave, Kelvin Zhenghao Li, Chen-Hsin Sun, Mark Chia, Gabriel Dawei Yang, Wendy Meihua Wong, David Ziyou Chen, Dianbo Liu, Maxwell Singer, Fares Antaki, Lucian V Del Priore, Jost Jonas, Ron Adelman, Qingyu Chen, Yih-Chung Tham,
- Abstract要約: BELOは、眼科関連の臨床的精度と推論品質の評価ベンチマークである。
5つのソースから集計された900の高品質で専門家レビューされた質問で構成されている。
透明な評価と報告を促進するために、公共のリーダーボードが設けられている。
- 参考スコア(独自算出の注目度): 4.765373980518581
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current benchmarks evaluating large language models (LLMs) in ophthalmology are limited in scope and disproportionately prioritise accuracy. We introduce BELO (BEnchmarking LLMs for Ophthalmology), a standardized and comprehensive evaluation benchmark developed through multiple rounds of expert checking by 13 ophthalmologists. BELO assesses ophthalmology-related clinical accuracy and reasoning quality. Using keyword matching and a fine-tuned PubMedBERT model, we curated ophthalmology-specific multiple-choice-questions (MCQs) from diverse medical datasets (BCSC, MedMCQA, MedQA, BioASQ, and PubMedQA). The dataset underwent multiple rounds of expert checking. Duplicate and substandard questions were systematically removed. Ten ophthalmologists refined the explanations of each MCQ's correct answer. This was further adjudicated by three senior ophthalmologists. To illustrate BELO's utility, we evaluated six LLMs (OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B, and Gemini 1.5 Pro) using accuracy, macro-F1, and five text-generation metrics (ROUGE-L, BERTScore, BARTScore, METEOR, and AlignScore). In a further evaluation involving human experts, two ophthalmologists qualitatively reviewed 50 randomly selected outputs for accuracy, comprehensiveness, and completeness. BELO consists of 900 high-quality, expert-reviewed questions aggregated from five sources: BCSC (260), BioASQ (10), MedMCQA (572), MedQA (40), and PubMedQA (18). A public leaderboard has been established to promote transparent evaluation and reporting. Importantly, the BELO dataset will remain a hold-out, evaluation-only benchmark to ensure fair and reproducible comparisons of future models.
- Abstract(参考訳): 眼科における大規模言語モデル (LLM) を評価する最新のベンチマークは、スコープと不均等な精度で制限されている。
本稿では,13名の眼科医による複数の検診を通じて,標準化された総合評価ベンチマークであるBELO(Benchmarking LLMs for Ophthalmology)を紹介する。
BELOは眼科関連の臨床的精度と推論品質を評価する。
キーワードマッチングと微調整されたPubMedBERTモデルを用いて,さまざまな医療データセット(BCSC,MedMCQA,MedQA,BioASQ,PubMedQA)から眼科特異的な多重選択探索(MCQ)をキュレートした。
データセットは、複数の専門家チェックを実行しました。
重複と準標準の質問は体系的に取り除かれた。
10人の眼科医がそれぞれのMCQの正解の説明を洗練させた。
さらに3人の眼科医がこれを非難した。
BELOの有用性を説明するため,我々は6つのLCM(OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B, Gemini 1.5 Pro)を精度,マクロF1,5つのテキスト生成指標(ROUGE-L,BERTScore, BARTScore, METEOR, AlignScore)を用いて評価した。
人間の専門家によるさらなる評価において、2人の眼科医は、正確性、包括性、完全性のためにランダムに選択された50のアウトプットを質的にレビューした。
BELOは、BCSC (260)、BioASQ (10)、MedMCQA (572)、MedQA (40)、PubMedQA (18)の5つのソースから集計された900の高品質な専門家レビューされた質問で構成されている。
透明な評価と報告を促進するために、公共のリーダーボードが設けられている。
重要なことは、BELOデータセットは、将来のモデルの公正かつ再現可能な比較を保証するために、ホールドアウトされた評価のみのベンチマークのままである。
関連論文リスト
- KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations [6.453078564406654]
国師MD-10は、日本の10の医療免許試験から構築された最初のマルチモーダルベンチマークである。
このベンチマークは、医学、歯科医学、看護学、薬局、および関連医療専門職を含む複数の分野にまたがる。
実際の11588以上の質問が含まれており、臨床画像と専門家による注釈付き根拠を取り入れて、テキストと視覚的推論の両方を評価している。
論文 参考訳(メタデータ) (2025-06-09T02:26:02Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。
現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。
我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文 参考訳(メタデータ) (2025-04-18T12:09:15Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。
MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
ベンチマークで18の先行モデルを評価した。
論文 参考訳(メタデータ) (2025-01-30T14:07:56Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。