論文の概要: Beyond Accuracy: Investigating Error Types in GPT-4 Responses to USMLE Questions
- arxiv url: http://arxiv.org/abs/2404.13307v1
- Date: Sat, 20 Apr 2024 07:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:29:41.285578
- Title: Beyond Accuracy: Investigating Error Types in GPT-4 Responses to USMLE Questions
- Title(参考訳): GPT-4におけるエラータイプの調査とUSMLE質問への回答
- Authors: Soumyadeep Roy, Aparup Khatua, Fatemeh Ghoochani, Uwe Hadler, Wolfgang Nejdl, Niloy Ganguly,
- Abstract要約: GPT-4は医療用QAタスクにおいて高い精度を示し、86.70%の精度で、Med-PaLM 2は86.50%である。
本稿では,医学生との連携から得られた新しい領域固有の誤り分類法を提案する。
GPT-4 USMLE Error (G4UE) データセットは, アメリカ医学ライセンス試験 (USMLE) に対する4153 GPT-4 の正解と 919 の誤応答からなる。
- 参考スコア(独自算出の注目度): 19.123851676646456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT-4 demonstrates high accuracy in medical QA tasks, leading with an accuracy of 86.70%, followed by Med-PaLM 2 at 86.50%. However, around 14% of errors remain. Additionally, current works use GPT-4 to only predict the correct option without providing any explanation and thus do not provide any insight into the thinking process and reasoning used by GPT-4 or other LLMs. Therefore, we introduce a new domain-specific error taxonomy derived from collaboration with medical students. Our GPT-4 USMLE Error (G4UE) dataset comprises 4153 GPT-4 correct responses and 919 incorrect responses to the United States Medical Licensing Examination (USMLE) respectively. These responses are quite long (258 words on average), containing detailed explanations from GPT-4 justifying the selected option. We then launch a large-scale annotation study using the Potato annotation platform and recruit 44 medical experts through Prolific, a well-known crowdsourcing platform. We annotated 300 out of these 919 incorrect data points at a granular level for different classes and created a multi-label span to identify the reasons behind the error. In our annotated dataset, a substantial portion of GPT-4's incorrect responses is categorized as a "Reasonable response by GPT-4," by annotators. This sheds light on the challenge of discerning explanations that may lead to incorrect options, even among trained medical professionals. We also provide medical concepts and medical semantic predications extracted using the SemRep tool for every data point. We believe that it will aid in evaluating the ability of LLMs to answer complex medical questions. We make the resources available at https://github.com/roysoumya/usmle-gpt4-error-taxonomy .
- Abstract(参考訳): GPT-4は医療用QAタスクにおいて高い精度を示し、86.70%の精度で、Med-PaLM 2は86.50%である。
しかし、エラーの約14%が残っている。
加えて、現在の研究では GPT-4 を用いて正しい選択肢を予測できるが、説明は得られず、したがって GPT-4 や他の LLM で使用される思考過程や推論についての洞察は得られない。
そこで,本研究では,医学生との連携から得られた新たな領域固有の誤り分類法を提案する。
GPT-4 USMLE Error (G4UE) データセットは, アメリカ医学ライセンス試験 (USMLE) に対する4153 GPT-4 の正解と 919 の誤応答からなる。
これらの応答は非常に長く(258語平均)、選択されたオプションを正当化する GPT-4 からの詳細な説明を含んでいる。
そして、Potatoアノテーションプラットフォームを使用して大規模なアノテーション研究を開始し、有名なクラウドソーシングプラットフォームであるProlificを通じて44人の医療専門家を募集した。
私たちは、これらの919の不正なデータポイントのうち300点を、異なるクラスの粒度レベルで注釈付けし、エラーの背後にある理由を特定するためにマルチラベルスパンを作成しました。
注釈付きデータセットでは、GPT-4の誤応答のかなりの部分は、アノテーションによって「GPT-4による推論可能な応答」に分類される。
これは、訓練された医療専門家の間でも、誤った選択肢につながる可能性のある説明を明らかにするという課題に光を当てている。
データポイント毎にSemRepツールを用いて抽出した医療概念と医用意味述語も提供する。
LLMが複雑な医学的疑問に答える能力を評価するのに役立つと我々は信じている。
リソースはhttps://github.com/roysoumya/usmle-gpt4-error-taxonomy で公開しています。
関連論文リスト
- Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - How well do LLMs cite relevant medical references? An evaluation
framework and analyses [18.1921791355309]
大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
GPT-4は, 医師会の88%の時間と一致し, 情報源の妥当性を高い精度で検証できることを実証した。
論文 参考訳(メタデータ) (2024-02-03T03:44:57Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - Multimodal ChatGPT for Medical Applications: an Experimental Study of
GPT-4V [20.84152508192388]
我々は、最先端のマルチモーダル言語モデルであるGPT-4 with Vision(GPT-4V)の能力について批判的に評価する。
本実験は,画像と組み合わせた問診におけるGPT-4Vの習熟度を,病理と放射線学の両方のデータセットを用いて徹底的に評価した。
精度試験の結果、GPT-4Vの現在のバージョンは現実世界の診断には推奨されないことがわかった。
論文 参考訳(メタデータ) (2023-10-29T16:26:28Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - HuatuoGPT, towards Taming Language Model to Be a Doctor [67.96794664218318]
HuatuoGPTは医療相談のための大規模言語モデル(LLM)である。
我々は,ChatGPTのテクティット蒸留データと,教師付き微調整段階の医師のテクティトゥルワールドデータの両方を活用する。
論文 参考訳(メタデータ) (2023-05-24T11:56:01Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。