論文の概要: Performance of ChatGPT-3.5 and GPT-4 on the United States Medical
Licensing Examination With and Without Distractions
- arxiv url: http://arxiv.org/abs/2309.08625v1
- Date: Tue, 12 Sep 2023 05:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-24 04:04:19.588512
- Title: Performance of ChatGPT-3.5 and GPT-4 on the United States Medical
Licensing Examination With and Without Distractions
- Title(参考訳): 米国医学ライセンス試験におけるChatGPT-3.5およびGPT-4の評価
- Authors: Myriam Safrai and Amos Azaria
- Abstract要約: 本研究は,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討した。
我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。
ChatGPT-4は、以前の3.5バージョンよりも正確で、小さな講演では、医療勧告を提供する能力が損なわれていないようである。
- 参考スコア(独自算出の注目度): 17.813396230160095
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) are predictive models building their response
based on the words in the prompts, there is a risk that small talk and
irrelevant information may alter the response and the suggestion given.
Therefore, this study aims to investigate the impact of medical data mixed with
small talk on the accuracy of medical advice provided by ChatGPT. USMLE step 3
questions were used as a model for relevant medical data. We use both multiple
choice and open ended questions. We gathered small talk sentences from human
participants using the Mechanical Turk platform. Both sets of USLME questions
were arranged in a pattern where each sentence from the original questions was
followed by a small talk sentence. ChatGPT 3.5 and 4 were asked to answer both
sets of questions with and without the small talk sentences. A board-certified
physician analyzed the answers by ChatGPT and compared them to the formal
correct answer. The analysis results demonstrate that the ability of
ChatGPT-3.5 to answer correctly was impaired when small talk was added to
medical data for multiple-choice questions (72.1\% vs. 68.9\%) and open
questions (61.5\% vs. 44.3\%; p=0.01), respectively. In contrast, small talk
phrases did not impair ChatGPT-4 ability in both types of questions (83.6\% and
66.2\%, respectively). According to these results, ChatGPT-4 seems more
accurate than the earlier 3.5 version, and it appears that small talk does not
impair its capability to provide medical recommendations. Our results are an
important first step in understanding the potential and limitations of
utilizing ChatGPT and other LLMs for physician-patient interactions, which
include casual conversations.
- Abstract(参考訳): 大きな言語モデル(llm)は、プロンプトの単語に基づいて応答を構築する予測モデルであるため、小さな会話と無関係な情報は、応答と提案を変更する可能性がある。
そこで本研究では,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討する。
USMLEのステップ3は、関連する医療データのモデルとして使用された。
複数の選択肢とオープンエンドの質問の両方を使っています。
我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。
両方のUSLME質問セットは、元の質問から各文章に小さな会話文が続くパターンで配置された。
チャットGPT 3.5 と 4 は,小言文と無言で両問に回答するよう求められた。
掲示板で確認した医師は、chatgptで回答を分析し、正式な正答と比較した。
分析の結果, 複数質問(72.1\% vs. 68.9\%)とオープン質問(61.5\% vs. 44.3\%; p=0.01)の医療データに小話を追加すると, ChatGPT-3.5の正解能力が損なわれることがわかった。
対照的に、小さな話し言葉は、どちらの質問でもchatgpt-4の能力を損なうことはない(それぞれ83.6\%と66.2\%)。
以上の結果から,ChatGPT-4は以前の3.5版よりも正確で,小話では医用レコメンデーションの提供能力に障害はないと考えられる。
本研究は,カジュアルな会話を含む医師と患者との対話にChatGPTや他のLLMを活用する可能性と限界を理解するための重要な第一歩である。
関連論文リスト
- Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - Can ChatGPT be Your Personal Medical Assistant? [0.09264362806173355]
本研究は,アラビア語によるオンライン質問と回答データセットを用いた。
約430万の質問と20の病種に対する回答がある。
この微調整モデルの性能は, 自動評価と人的評価により評価した。
論文 参考訳(メタデータ) (2023-12-19T09:54:27Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Performance of ChatGPT on USMLE: Unlocking the Potential of Large
Language Models for AI-Assisted Medical Education [0.0]
本研究は,ChatGPTが複雑な医学的および臨床的な疑問に答える上で,いかに信頼性が高いかを検討した。
本研究は2方向ANOVAとポストホック解析を用いて得られた結果について検討した。
ChatGPTによる回答は、通常のGoogle検索結果よりもコンテキスト指向であることが判明した。
論文 参考訳(メタデータ) (2023-06-30T19:53:23Z) - Chatbots put to the test in math and logic problems: A preliminary
comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard [68.8204255655161]
曖昧さがなく、プレーンテキストのみで完全に記述され、ユニークな、明確に定義された正しい回答を持つ、30の質問を使用します。
回答は記録され、議論され、その強みと弱点を強調します。
その結果,ChatGPT-4はChatGPT-3.5より優れていた。
論文 参考訳(メタデータ) (2023-05-30T11:18:05Z) - Does ChatGPT have Theory of Mind? [2.3129337924262927]
心の理論 (Theory of Mind, ToM) とは、人間の思考と意思決定を理解する能力である。
本稿では,最近のChatGPT伝統における大規模言語モデル(Large Language Models)がToMをどの程度持っているかを検討する。
論文 参考訳(メタデータ) (2023-05-23T12:55:21Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。