論文の概要: Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study
- arxiv url: http://arxiv.org/abs/2501.13949v1
- Date: Mon, 20 Jan 2025 02:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:32.053571
- Title: Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study
- Title(参考訳): OpenAI O1推論は眼科に有効か?6,990件の頭部頭頭蓋評価研究
- Authors: Sahana Srinivasan, Xuguang Ai, Minjie Zou, Ke Zou, Hyunjae Kim, Thaddaeus Wai Soon Lo, Krithi Pushpanathan, Yiming Kong, Anran Li, Maxwell Singer, Kai Jin, Fares Antaki, David Ziyou Chen, Dianbo Liu, Ron A. Adelman, Qingyu Chen, Yih Chung Tham,
- Abstract要約: MedMCQAの6,990個の眼科質問紙を用いて,OpenAI o1および5個のLDMについて検討した。
O1は高い精度(0.88)とマクロF1スコアを達成したが、テキスト生成基準に基づいて推論能力は3位であった。
- 参考スコア(独自算出の注目度): 6.883286555555795
- License:
- Abstract: Question: What is the performance and reasoning ability of OpenAI o1 compared to other large language models in addressing ophthalmology-specific questions? Findings: This study evaluated OpenAI o1 and five LLMs using 6,990 ophthalmological questions from MedMCQA. O1 achieved the highest accuracy (0.88) and macro-F1 score but ranked third in reasoning capabilities based on text-generation metrics. Across subtopics, o1 ranked first in ``Lens'' and ``Glaucoma'' but second to GPT-4o in ``Corneal and External Diseases'', ``Vitreous and Retina'' and ``Oculoplastic and Orbital Diseases''. Subgroup analyses showed o1 performed better on queries with longer ground truth explanations. Meaning: O1's reasoning enhancements may not fully extend to ophthalmology, underscoring the need for domain-specific refinements to optimize performance in specialized fields like ophthalmology.
- Abstract(参考訳): 質問:眼科固有の問題に対処する他の大規模言語モデルと比較して,OpenAI o1の性能と推論能力はどのようなものか?
結果: 本研究は, MedMCQAの6,990個の眼科質問紙を用いて, OpenAI o1 と 5 個の LLM を評価した。
O1は高い精度(0.88)とマクロF1スコアを達成したが、テキスト生成基準に基づいて推論能力は3位であった。
亜熱帯では、o1は'Lens'と'Glaucoma'で第1位であったが、'Corneal and external Diseases'、'Vitreous and Retina'、'Oculoplastic and Orbital Diseases'ではGPT-4oに次いで第2位であった。
サブグループ分析の結果、o1はより長い真実説明を持つクエリでより良い性能を示した。
意味: O1の理由付けの強化は眼科に完全には及ばず、眼科のような専門分野のパフォーマンスを最適化するためのドメイン固有の改善の必要性を強調している。
関連論文リスト
- MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs [19.448687758457318]
複雑な推論が可能な医療用LLMであるHuatuoGPT-o1は、40K問題のみを使用して、一般および医療固有のベースラインを上回ります。
実験により、複雑な推論は医学的問題解決を改善し、強化学習の恩恵を受けることが示されている。
論文 参考訳(メタデータ) (2024-12-25T15:12:34Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - Medical Application of Geometric Deep Learning for the Diagnosis of
Glaucoma [60.42955087779866]
シンガポール国立眼科における視神経頭部の3DスキャンをSpectralis OCTで477緑内障と2,296名の非緑内障患者に対して行った。
全巻は、ディープラーニングを用いて自動的にセグメンテーションされ、7つの主要な神経組織と結合組織が識別された。
ポイントネットは、3Dポイントクラウドとして表されるONHのみから頑健な緑内障の診断を行うことができた。
論文 参考訳(メタデータ) (2022-04-14T14:55:25Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Efficient Screening of Diseased Eyes based on Fundus Autofluorescence
Images using Support Vector Machine [0.12189422792863448]
さまざまな視力障害は、目の焦点領域の地理的縮縮(GA)と関連している。
現在の臨床では、眼科医は、眼底蛍光(FAF)画像に基づいて、このようなGAの存在を手動で検出する。
健康眼と病眼をアルゴリズムで識別し,眼科医のみからの入力を限定したスクリーニングステップを提案する。
論文 参考訳(メタデータ) (2021-04-17T11:54:34Z) - 1-D Convlutional Neural Networks for the Analysis of Pupil Size
Variations in Scotopic Conditions [79.71065005161566]
1次元畳み込みニューラルネットワークモデルは、短距離配列の分類のために訓練されている。
モデルは、ホールドアウトテストセット上で、高い平均精度で予測を提供する。
論文 参考訳(メタデータ) (2020-02-06T17:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。