論文の概要: Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items
- arxiv url: http://arxiv.org/abs/2504.11186v1
- Date: Tue, 15 Apr 2025 13:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:53.101276
- Title: Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items
- Title(参考訳): 眼科における次世代推論型大規模言語モデルのベンチマーク:5,888項目の頭から頭への評価
- Authors: Minjie Zou, Sahana Srinivasan, Thaddaeus Wai Soon Lo, Ke Zou, Gabriel Dawei Yang, Xuguang Ai, Hyunjae Kim, Maxwell Singer, Fares Antaki, Kelvin Li, Robert Chang, Marcus Tan, David Ziyou Chen, Dianbo Liu, Qingyu Chen, Yih Chung Tham,
- Abstract要約: 本研究は, 新たに開発した4つのLLMの精度と推論能力を総合的に評価し, 比較した。
O1 と DeepSeek-R1 は最高精度を達成し、O1 は Macro-F1 (0.900) もリードした。
o3-mini in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini connected for BERTScore (0.673), DeepSeek-R1 (-4.105), Gemini 2.0 Flash-Thinking (-4.127) performed in BART
- 参考スコア(独自算出の注目度): 5.087573829521397
- License:
- Abstract: Recent advances in reasoning-focused large language models (LLMs) mark a shift from general LLMs toward models designed for complex decision-making, a crucial aspect in medicine. However, their performance in specialized domains like ophthalmology remains underexplored. This study comprehensively evaluated and compared the accuracy and reasoning capabilities of four newly developed reasoning-focused LLMs, namely DeepSeek-R1, OpenAI o1, o3-mini, and Gemini 2.0 Flash-Thinking. Each model was assessed using 5,888 multiple-choice ophthalmology exam questions from the MedMCQA dataset in zero-shot setting. Quantitative evaluation included accuracy, Macro-F1, and five text-generation metrics (ROUGE-L, METEOR, BERTScore, BARTScore, and AlignScore), computed against ground-truth reasonings. Average inference time was recorded for a subset of 100 randomly selected questions. Additionally, two board-certified ophthalmologists qualitatively assessed clarity, completeness, and reasoning structure of responses to differential diagnosis questions.O1 (0.902) and DeepSeek-R1 (0.888) achieved the highest accuracy, with o1 also leading in Macro-F1 (0.900). The performance of models across the text-generation metrics varied: O3-mini excelled in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini tied for BERTScore (0.673), DeepSeek-R1 (-4.105) and Gemini 2.0 Flash-Thinking (-4.127) performed best in BARTScore, while o3-mini (0.181) and o1 (0.176) led AlignScore. Inference time across the models varied, with DeepSeek-R1 being slowest (40.4 seconds) and Gemini 2.0 Flash-Thinking fastest (6.7 seconds). Qualitative evaluation revealed that DeepSeek-R1 and Gemini 2.0 Flash-Thinking tended to provide detailed and comprehensive intermediate reasoning, whereas o1 and o3-mini displayed concise and summarized justifications.
- Abstract(参考訳): 推論に焦点を絞った大規模言語モデル(LLM)の最近の進歩は、医学において重要な側面である、複雑な意思決定のために設計されたモデルへの一般的なLLMへのシフトを示す。
しかし、眼科などの専門分野における業績は未定である。
本研究は,DeepSeek-R1,OpenAI o1,o3-mini,Gemini 2.0 Flash-Thinkingという,新たに開発された4つの推論型LLMの精度と推論能力を総合的に評価し,比較した。
各モデルは,MedMCQAデータセットから5,888個の多点眼科検査質問紙を用いてゼロショット設定で評価した。
定量的評価には、精度、マクロ-F1、および5つのテキスト生成指標(ROUGE-L、METEOR、BERTScore、BARTScore、AlignScore)が、地道的推論に対して計算された。
ランダムに選択された100の質問に対して平均推測時間が記録された。
さらに、2人の眼科医は、鑑別診断問題に対する反応の明瞭さ、完全性、推論構造を質的に評価し、O1 (0.902) とDeepSeek-R1 (0.888) は最高精度を達成し、O1はマクロF1 (0.900) にも導いた。
O3-miniはROUGE-L (0.151)、o1はMETEOR (0.232)、DeepSeek-R1とo3-miniはBERTScore (0.673)、DeepSeek-R1 (-4.105)、Gemini 2.0 Flash-Thinking (-4.127)はBARTScoreで、o3-mini (0.181)、o1 (0.176)はAlignScoreで最高の成績を収めた。
DeepSeek-R1は40.4秒、Gemini 2.0 Flash-Thinkingは6.7秒であった。
質的な評価では、DeepSeek-R1 と Gemini 2.0 Flash-Thinking は詳細で包括的な中間推論を提供する傾向を示し、o1 と o3-mini は簡潔で正当化された。
関連論文リスト
- Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文 参考訳(メタデータ) (2025-02-02T16:57:03Z) - Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study [6.883286555555795]
MedMCQAの6,990個の眼科質問紙を用いて,OpenAI o1および5個のLDMについて検討した。
O1は高い精度(0.88)とマクロF1スコアを達成したが、テキスト生成基準に基づいて推論能力は3位であった。
論文 参考訳(メタデータ) (2025-01-20T02:40:01Z) - A Hybrid Artificial Intelligence System for Automated EEG Background Analysis and Report Generation [0.1874930567916036]
本研究では,脳波の背景活動とレポート生成を自動的に解釈する,革新的なハイブリッド人工知能(AI)システムを提案する。
このシステムは、後続支配リズム(PDR)予測のためのディープラーニングモデル、教師なしアーティファクト除去、および異常検出のためのエキスパート設計アルゴリズムを組み合わせる。
このAIシステムは、全般的なバックグラウンドの減速を検知し、焦点異常の検出を改善することで神経学者を著しく上回った。
論文 参考訳(メタデータ) (2024-11-15T01:49:17Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z) - Handling Missing MRI Input Data in Deep Learning Segmentation of Brain
Metastases: A Multi-Center Study [1.4463443378902883]
深層学習に基づくDropOutと呼ばれる脳転移の自動セグメンテーションのためのセグメンテーションモデルが、マルチシーケンスMRIで訓練された。
セグメンテーションの結果は、最先端のDeepLabV3モデルの性能と比較された。
DropOutモデルはDeepLabV3モデルに比べてかなり高いスコアを示した。
論文 参考訳(メタデータ) (2019-12-27T02:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。