論文の概要: Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items
- arxiv url: http://arxiv.org/abs/2504.11186v1
- Date: Tue, 15 Apr 2025 13:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 00:56:28.483098
- Title: Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items
- Title(参考訳): 眼科における次世代推論型大規模言語モデルのベンチマーク:5,888項目の頭から頭への評価
- Authors: Minjie Zou, Sahana Srinivasan, Thaddaeus Wai Soon Lo, Ke Zou, Gabriel Dawei Yang, Xuguang Ai, Hyunjae Kim, Maxwell Singer, Fares Antaki, Kelvin Li, Robert Chang, Marcus Tan, David Ziyou Chen, Dianbo Liu, Qingyu Chen, Yih Chung Tham,
- Abstract要約: 本研究は, 新たに開発した4つのLLMの精度と推論能力を総合的に評価し, 比較した。
O1 と DeepSeek-R1 は最高精度を達成し、O1 は Macro-F1 (0.900) もリードした。
o3-mini in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini connected for BERTScore (0.673), DeepSeek-R1 (-4.105), Gemini 2.0 Flash-Thinking (-4.127) performed in BART
- 参考スコア(独自算出の注目度): 5.087573829521397
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in reasoning-focused large language models (LLMs) mark a shift from general LLMs toward models designed for complex decision-making, a crucial aspect in medicine. However, their performance in specialized domains like ophthalmology remains underexplored. This study comprehensively evaluated and compared the accuracy and reasoning capabilities of four newly developed reasoning-focused LLMs, namely DeepSeek-R1, OpenAI o1, o3-mini, and Gemini 2.0 Flash-Thinking. Each model was assessed using 5,888 multiple-choice ophthalmology exam questions from the MedMCQA dataset in zero-shot setting. Quantitative evaluation included accuracy, Macro-F1, and five text-generation metrics (ROUGE-L, METEOR, BERTScore, BARTScore, and AlignScore), computed against ground-truth reasonings. Average inference time was recorded for a subset of 100 randomly selected questions. Additionally, two board-certified ophthalmologists qualitatively assessed clarity, completeness, and reasoning structure of responses to differential diagnosis questions.O1 (0.902) and DeepSeek-R1 (0.888) achieved the highest accuracy, with o1 also leading in Macro-F1 (0.900). The performance of models across the text-generation metrics varied: O3-mini excelled in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini tied for BERTScore (0.673), DeepSeek-R1 (-4.105) and Gemini 2.0 Flash-Thinking (-4.127) performed best in BARTScore, while o3-mini (0.181) and o1 (0.176) led AlignScore. Inference time across the models varied, with DeepSeek-R1 being slowest (40.4 seconds) and Gemini 2.0 Flash-Thinking fastest (6.7 seconds). Qualitative evaluation revealed that DeepSeek-R1 and Gemini 2.0 Flash-Thinking tended to provide detailed and comprehensive intermediate reasoning, whereas o1 and o3-mini displayed concise and summarized justifications.
- Abstract(参考訳): 推論に焦点を絞った大規模言語モデル(LLM)の最近の進歩は、医学において重要な側面である、複雑な意思決定のために設計されたモデルへの一般的なLLMへのシフトを示す。
しかし、眼科などの専門分野における業績は未定である。
本研究は,DeepSeek-R1,OpenAI o1,o3-mini,Gemini 2.0 Flash-Thinkingという,新たに開発された4つの推論型LLMの精度と推論能力を総合的に評価し,比較した。
各モデルは,MedMCQAデータセットから5,888個の多点眼科検査質問紙を用いてゼロショット設定で評価した。
定量的評価には、精度、マクロ-F1、および5つのテキスト生成指標(ROUGE-L、METEOR、BERTScore、BARTScore、AlignScore)が、地道的推論に対して計算された。
ランダムに選択された100の質問に対して平均推測時間が記録された。
さらに、2人の眼科医は、鑑別診断問題に対する反応の明瞭さ、完全性、推論構造を質的に評価し、O1 (0.902) とDeepSeek-R1 (0.888) は最高精度を達成し、O1はマクロF1 (0.900) にも導いた。
O3-miniはROUGE-L (0.151)、o1はMETEOR (0.232)、DeepSeek-R1とo3-miniはBERTScore (0.673)、DeepSeek-R1 (-4.105)、Gemini 2.0 Flash-Thinking (-4.127)はBARTScoreで、o3-mini (0.181)、o1 (0.176)はAlignScoreで最高の成績を収めた。
DeepSeek-R1は40.4秒、Gemini 2.0 Flash-Thinkingは6.7秒であった。
質的な評価では、DeepSeek-R1 と Gemini 2.0 Flash-Thinking は詳細で包括的な中間推論を提供する傾向を示し、o1 と o3-mini は簡潔で正当化された。
関連論文リスト
- Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Multimodal Human-AI Synergy for Medical Imaging Quality Control: A Hybrid Intelligence Framework with Adaptive Dataset Curation and Closed-Loop Evaluation [16.19033330311087]
画像品質評価における大規模言語モデル (LLM) の評価と標準化の報告を行う。
Gemini 2.0-Flash は CXR タスクの Macro F1 スコアを90点達成し、強力な一般化を示したが、細かい性能は制限された。
DeepSeek-R1はCTで62.23%のリコール率で評価され、他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-10T08:16:18Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning [4.050281368901217]
DeepSeek-R1および他の3つの最近リリースされた大型眼科推論モデル(LLM)を評価した。
DeepSeek-R1は中国語と中国語のMCQで5つのトピックで最高精度を達成した。
推論論理と推論誤りの原因を分析して推論能力を評価した。
論文 参考訳(メタデータ) (2025-02-25T08:08:53Z) - DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities [39.68147391225923]
大規模言語モデル(LLM)における長文推論能力を評価するための厳格に構築されたベンチマークであるDocPuzzleを提案する。
このベンチマークは、長い実世界の文書に対して多段階の推論を必要とする100のエキスパートレベルのQA問題からなる。
本稿では,チェックリスト誘導プロセス分析による予測バイアスを軽減する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-25T03:29:53Z) - Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study [6.883286555555795]
MedMCQAの6,990個の眼科質問紙を用いて,OpenAI o1および5個のLDMについて検討した。
O1は高い精度(0.88)とマクロF1スコアを達成したが、テキスト生成基準に基づいて推論能力は3位であった。
論文 参考訳(メタデータ) (2025-01-20T02:40:01Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - AXIAL: Attention-based eXplainability for Interpretable Alzheimer's Localized Diagnosis using 2D CNNs on 3D MRI brain scans [43.06293430764841]
本研究では,3次元MRIを用いたアルツハイマー病診断の革新的手法を提案する。
提案手法では,2次元CNNがボリューム表現を抽出できるソフトアテンション機構を採用している。
ボクセルレベルの精度では、どの領域に注意が払われているかを同定し、これらの支配的な脳領域を同定する。
論文 参考訳(メタデータ) (2024-07-02T16:44:00Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。