論文の概要: Performance of ChatGPT on USMLE: Unlocking the Potential of Large
Language Models for AI-Assisted Medical Education
- arxiv url: http://arxiv.org/abs/2307.00112v2
- Date: Thu, 27 Jul 2023 23:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:21:00.518516
- Title: Performance of ChatGPT on USMLE: Unlocking the Potential of Large
Language Models for AI-Assisted Medical Education
- Title(参考訳): USMLEにおけるChatGPTの性能:AI支援医療教育における大規模言語モデルの可能性
- Authors: Prabin Sharma, Kisan Thapa, Dikshya Thapa, Prastab Dhakal, Mala Deep
Upadhaya, Santosh Adhikari, Salik Ram Khanal
- Abstract要約: 本研究は,ChatGPTが複雑な医学的および臨床的な疑問に答える上で,いかに信頼性が高いかを検討した。
本研究は2方向ANOVAとポストホック解析を用いて得られた結果について検討した。
ChatGPTによる回答は、通常のGoogle検索結果よりもコンテキスト指向であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificial intelligence is gaining traction in more ways than ever before.
The popularity of language models and AI-based businesses has soared since
ChatGPT was made available to the general public via OpenAI. It is becoming
increasingly common for people to use ChatGPT both professionally and
personally. Considering the widespread use of ChatGPT and the reliance people
place on it, this study determined how reliable ChatGPT can be for answering
complex medical and clinical questions. Harvard University gross anatomy along
with the United States Medical Licensing Examination (USMLE) questionnaire were
used to accomplish the objective. The paper evaluated the obtained results
using a 2-way ANOVA and posthoc analysis. Both showed systematic covariation
between format and prompt. Furthermore, the physician adjudicators
independently rated the outcome's accuracy, concordance, and insight. As a
result of the analysis, ChatGPT-generated answers were found to be more
context-oriented and represented a better model for deductive reasoning than
regular Google search results. Furthermore, ChatGPT obtained 58.8% on logical
questions and 60% on ethical questions. This means that the ChatGPT is
approaching the passing range for logical questions and has crossed the
threshold for ethical questions. The paper believes ChatGPT and other language
learning models can be invaluable tools for e-learners; however, the study
suggests that there is still room to improve their accuracy. In order to
improve ChatGPT's performance in the future, further research is needed to
better understand how it can answer different types of questions.
- Abstract(参考訳): 人工知能はこれまで以上に勢いを増している。
言語モデルとAIベースのビジネスの人気は、ChatGPTがOpenAIを通じて一般公開されて以来、高まっている。
プロフェッショナルと個人の両方でChatGPTを使う人が増えている。
本研究は,ChatGPTの広汎な利用と,その信頼性を考慮し,複雑な医療・臨床問題に対するChatGPTの信頼性について検討した。
ハーバード大学の総合解剖学と米国医学ライセンス試験(USMLE)のアンケートが目的を達成するために用いられた。
本研究は2方向ANOVAとポストホック解析を用いて評価した。
どちらも形式とプロンプトの体系的な共変を示した。
さらに, 医師は, 結果の正確性, 一致性, 洞察性を独立に評価した。
分析の結果,ChatGPTが生成した回答は文脈指向であり,通常のGoogle検索結果よりも推論的推論のモデルとして優れていた。
さらに、ChatGPTは論理的質問で58.8%、倫理的質問で60%を得た。
これは、ChatGPTが論理的質問の通過範囲に近づき、倫理的質問のしきい値を超えたことを意味する。
論文は、ChatGPTや他の言語学習モデルがeラーナーにとって貴重なツールであると考えているが、この研究は、その正確性を改善する余地がまだ残っていることを示唆している。
今後のChatGPTの性能向上には,様々な質問にどのように答えられるかをよりよく理解するために,さらなる研究が必要である。
関連論文リスト
- Enhancing Medical Support in the Arabic Language Through Personalized ChatGPT Assistance [1.174020933567308]
ChatGPTはリアルタイムでパーソナライズされた医療診断を無償で提供する。
この研究は、疾患情報のデータセットをコンパイルし、各疾患に対して複数のメッセージを生成する。
ChatGPTの反応と実際の疾患との類似性を測定することにより,ChatGPTの性能を評価した。
論文 参考訳(メタデータ) (2024-03-21T21:28:07Z) - Can ChatGPT be Your Personal Medical Assistant? [0.09264362806173355]
本研究は,アラビア語によるオンライン質問と回答データセットを用いた。
約430万の質問と20の病種に対する回答がある。
この微調整モデルの性能は, 自動評価と人的評価により評価した。
論文 参考訳(メタデータ) (2023-12-19T09:54:27Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Performance of ChatGPT-3.5 and GPT-4 on the United States Medical
Licensing Examination With and Without Distractions [17.813396230160095]
本研究は,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討した。
我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。
ChatGPT-4は、以前の3.5バージョンよりも正確で、小さな講演では、医療勧告を提供する能力が損なわれていないようである。
論文 参考訳(メタデータ) (2023-09-12T05:54:45Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models [49.52083248451775]
大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
特にChatGPTは,広く利用されており,アクセスしやすいLLMである。
我々は、ChatGPTの常識能力を評価するために、11のデータセットで一連の実験を行った。
論文 参考訳(メタデータ) (2023-03-29T03:05:43Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。