論文の概要: DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning
- arxiv url: http://arxiv.org/abs/2502.17947v1
- Date: Tue, 25 Feb 2025 08:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:57.025854
- Title: DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning
- Title(参考訳): DeepSeek-R1、二言語複合眼科推論におけるGemini 2.0 Pro、OpenAI o1、o3-miniのパフォーマンス向上
- Authors: Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi,
- Abstract要約: DeepSeek-R1および他の3つの最近リリースされた大型眼科推論モデル(LLM)を評価した。
DeepSeek-R1は中国語と中国語のMCQで5つのトピックで最高精度を達成した。
推論論理と推論誤りの原因を分析して推論能力を評価した。
- 参考スコア(独自算出の注目度): 4.050281368901217
- License:
- Abstract: Purpose: To evaluate the accuracy and reasoning ability of DeepSeek-R1 and three other recently released large language models (LLMs) in bilingual complex ophthalmology cases. Methods: A total of 130 multiple-choice questions (MCQs) related to diagnosis (n = 39) and management (n = 91) were collected from the Chinese ophthalmology senior professional title examination and categorized into six topics. These MCQs were translated into English using DeepSeek-R1. The responses of DeepSeek-R1, Gemini 2.0 Pro, OpenAI o1 and o3-mini were generated under default configurations between February 15 and February 20, 2025. Accuracy was calculated as the proportion of correctly answered questions, with omissions and extra answers considered incorrect. Reasoning ability was evaluated through analyzing reasoning logic and the causes of reasoning error. Results: DeepSeek-R1 demonstrated the highest overall accuracy, achieving 0.862 in Chinese MCQs and 0.808 in English MCQs. Gemini 2.0 Pro, OpenAI o1, and OpenAI o3-mini attained accuracies of 0.715, 0.685, and 0.692 in Chinese MCQs (all P<0.001 compared with DeepSeek-R1), and 0.746 (P=0.115), 0.723 (P=0.027), and 0.577 (P<0.001) in English MCQs, respectively. DeepSeek-R1 achieved the highest accuracy across five topics in both Chinese and English MCQs. It also excelled in management questions conducted in Chinese (all P<0.05). Reasoning ability analysis showed that the four LLMs shared similar reasoning logic. Ignoring key positive history, ignoring key positive signs, misinterpretation medical data, and too aggressive were the most common causes of reasoning errors. Conclusion: DeepSeek-R1 demonstrated superior performance in bilingual complex ophthalmology reasoning tasks than three other state-of-the-art LLMs. While its clinical applicability remains challenging, it shows promise for supporting diagnosis and clinical decision-making.
- Abstract(参考訳): 目的: 両眼科領域におけるDeepSeek-R1および他の3つの大規模言語モデル(LLM)の精度と推論能力を評価すること。
方法: 診断(n = 39)および管理(n = 91)に関連する総計130問(MCQ)を,中国眼科上級専門職試験から収集し,6項目に分類した。
これらのMCQはDeepSeek-R1を用いて英語に翻訳された。
DeepSeek-R1、Gemini 2.0 Pro、OpenAI o1、o3-miniのレスポンスは、2025年2月15日から2月20日までのデフォルト設定で生成された。
正確さは、正しい回答の比率として計算され、省略と余分な回答は誤りとみなされた。
推論論理と推論誤りの原因を分析して推論能力を評価した。
結果:DeepSeek-R1では,中国語MCQでは0.862,英語MCQでは0.808であった。
Gemini 2.0 Pro、OpenAI o1、OpenAI o3-miniは、中国のMCQでは0.715、0.685、0.692、英語MCQでは0.746(P=0.115)、0.723(P=0.027)、0.577(P<0.001)である。
DeepSeek-R1は中国語と英語のMCQで5つのトピックで最高精度を達成した。
また、中国語による経営問題(全てのP<0.05)にも優れていた。
推論能力解析により、4つのLSMが同様の推論論理を共有していることが示された。
重要なポジティブな歴史を無視し、重要なポジティブな兆候を無視し、誤解する医療データを無視し、過度に攻撃的すぎることが、推論エラーの最も一般的な原因であった。
結論: DeepSeek-R1は, 両言語複雑な眼科推論タスクにおいて, 他の3つの最先端LCMよりも優れた性能を示した。
臨床応用性は依然として難しいが, 診断と臨床的意思決定を支援することを約束している。
関連論文リスト
- MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises [41.39610589639382]
本稿では,677質問を慎重に整理したデータセットであるRuozhiBenchについて紹介する。
我々は,LuozhiBench上の5シリーズから17の大規模言語モデル (LLM) を評価する。
LLMは論理的誤りを検出・推論する能力に限界を示し、最も優れたモデルであるClaude-3-haikuでさえも90%以上のヒトと比較して62%の精度しか達成できなかった。
論文 参考訳(メタデータ) (2025-02-18T18:47:11Z) - LLM Assistance for Pediatric Depression [2.1398676192061683]
本研究は,小児期における抑うつ的症状抽出のための最先端LPMの実現可能性について検討した(年齢6~24歳)。
Flanは平均F1: 0.65, 精度: 0.78) で, 睡眠障害 (F1: 0.92) や自覚症状 (F1: 0.8) などの稀な症状の抽出に優れていた。
Llama 3は、最も高いリコール(0.90)を持ち、症状を過度に一般化し、この種の分析には適さない。
論文 参考訳(メタデータ) (2025-01-29T09:27:27Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study [6.883286555555795]
MedMCQAの6,990個の眼科質問紙を用いて,OpenAI o1および5個のLDMについて検討した。
O1は高い精度(0.88)とマクロF1スコアを達成したが、テキスト生成基準に基づいて推論能力は3位であった。
論文 参考訳(メタデータ) (2025-01-20T02:40:01Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。