Fugu-MT 論文翻訳(概要): Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study

論文の概要: Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study

arxiv url: http://arxiv.org/abs/2501.13949v1
Date: Mon, 20 Jan 2025 02:40:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.473034
Title: Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study
Title（参考訳）: OpenAI O1推論は眼科に有効か?6,990件の頭部頭頭蓋評価研究
Authors: Sahana Srinivasan, Xuguang Ai, Minjie Zou, Ke Zou, Hyunjae Kim, Thaddaeus Wai Soon Lo, Krithi Pushpanathan, Yiming Kong, Anran Li, Maxwell Singer, Kai Jin, Fares Antaki, David Ziyou Chen, Dianbo Liu, Ron A. Adelman, Qingyu Chen, Yih Chung Tham,
Abstract要約: MedMCQAの6,990個の眼科質問紙を用いて,OpenAI o1および5個のLDMについて検討した。 O1は高い精度(0.88)とマクロF1スコアを達成したが、テキスト生成基準に基づいて推論能力は3位であった。
参考スコア（独自算出の注目度）: 6.883286555555795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Question: What is the performance and reasoning ability of OpenAI o1 compared to other large language models in addressing ophthalmology-specific questions? Findings: This study evaluated OpenAI o1 and five LLMs using 6,990 ophthalmological questions from MedMCQA. O1 achieved the highest accuracy (0.88) and macro-F1 score but ranked third in reasoning capabilities based on text-generation metrics. Across subtopics, o1 ranked first in ``Lens'' and ``Glaucoma'' but second to GPT-4o in ``Corneal and External Diseases'', ``Vitreous and Retina'' and ``Oculoplastic and Orbital Diseases''. Subgroup analyses showed o1 performed better on queries with longer ground truth explanations. Meaning: O1's reasoning enhancements may not fully extend to ophthalmology, underscoring the need for domain-specific refinements to optimize performance in specialized fields like ophthalmology.
Abstract（参考訳）: 質問:眼科固有の問題に対処する他の大規模言語モデルと比較して,OpenAI o1の性能と推論能力はどのようなものか? 結果: 本研究は, MedMCQAの6,990個の眼科質問紙を用いて, OpenAI o1 と 5 個の LLM を評価した。 O1は高い精度(0.88)とマクロF1スコアを達成したが、テキスト生成基準に基づいて推論能力は3位であった。亜熱帯では、o1は'Lens'と'Glaucoma'で第1位であったが、'Corneal and external Diseases'、'Vitreous and Retina'、'Oculoplastic and Orbital Diseases'ではGPT-4oに次いで第2位であった。サブグループ分析の結果、o1はより長い真実説明を持つクエリでより良い性能を示した。意味: O1の理由付けの強化は眼科に完全には及ばず、眼科のような専門分野のパフォーマンスを最適化するためのドメイン固有の改善の必要性を強調している。

関連論文リスト

BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning [4.765373980518581]
BELOは、眼科関連の臨床的精度と推論品質の評価ベンチマークである。 5つのソースから集計された900の高品質で専門家レビューされた質問で構成されている。透明な評価と報告を促進するために、公共のリーダーボードが設けられている。
論文参考訳（メタデータ） (2025-07-21T15:27:32Z)
Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains [52.86636270242863]
この研究は、最終回答の精度を超えて、医学と数学の領域におけるステップバイステップの推論を研究する。使用した知識の正しさと推論の質を判断する,きめ細かい評価フレームワークを導入する。この枠組みを用いて,医学・数学領域における教師付き微調整(SFT)および/または強化学習(RL)で訓練されたR1蒸留およびベースQwenモデルについて検討した。
論文参考訳（メタデータ） (2025-06-02T18:01:00Z)
CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文参考訳（メタデータ） (2025-04-18T12:09:15Z)
Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items [5.087573829521397]
本研究は, 新たに開発した4つのLLMの精度と推論能力を総合的に評価し, 比較した。 O1 と DeepSeek-R1 は最高精度を達成し、O1 は Macro-F1 (0.900) もリードした。 o3-mini in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini connected for BERTScore (0.673), DeepSeek-R1 (-4.105), Gemini 2.0 Flash-Thinking (-4.127) performed in BART
論文参考訳（メタデータ） (2025-04-15T13:42:34Z)
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning [4.050281368901217]
DeepSeek-R1および他の3つの最近リリースされた大型眼科推論モデル(LLM)を評価した。 DeepSeek-R1は中国語と中国語のMCQで5つのトピックで最高精度を達成した。推論論理と推論誤りの原因を分析して推論能力を評価した。
論文参考訳（メタデータ） (2025-02-25T08:08:53Z)
MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。 GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文参考訳（メタデータ） (2025-02-20T06:33:23Z)
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs [19.448687758457318]
複雑な推論が可能な医療用LLMであるHuatuoGPT-o1は、40K問題のみを使用して、一般および医療固有のベースラインを上回ります。実験により、複雑な推論は医学的問題解決を改善し、強化学習の恩恵を受けることが示されている。
論文参考訳（メタデータ） (2024-12-25T15:12:34Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文参考訳（メタデータ） (2024-10-02T14:57:58Z)
Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。 LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。 GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文参考訳（メタデータ） (2024-10-01T02:43:54Z)
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文参考訳（メタデータ） (2024-09-23T17:59:43Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文参考訳（メタデータ） (2022-04-13T15:27:05Z)
Efficient Screening of Diseased Eyes based on Fundus Autofluorescence Images using Support Vector Machine [0.12189422792863448]
さまざまな視力障害は、目の焦点領域の地理的縮縮(GA)と関連している。現在の臨床では、眼科医は、眼底蛍光(FAF)画像に基づいて、このようなGAの存在を手動で検出する。健康眼と病眼をアルゴリズムで識別し,眼科医のみからの入力を限定したスクリーニングステップを提案する。
論文参考訳（メタデータ） (2021-04-17T11:54:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。