論文の概要: Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam
and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted
Medical Education and Decision Making in Radiation Oncology
- arxiv url: http://arxiv.org/abs/2304.11957v3
- Date: Tue, 23 May 2023 10:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:45:01.138062
- Title: Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam
and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted
Medical Education and Decision Making in Radiation Oncology
- Title(参考訳): ACR放射線オンコロジー試験(TXIT)におけるChatGPT-4のベンチマーク:放射線オンコロジーにおけるAI支援医療教育と意思決定の可能性と課題
- Authors: Yixing Huang, Ahmed Gomaa, Sabine Semrau, Marlen Haderlein, Sebastian
Lettmaier, Thomas Weissmann, Johanna Grigo, Hassen Ben Tkhayat, Benjamin
Frey, Udo S. Gaipl, Luitpold V. Distel, Andreas Maier, Rainer Fietkau,
Christoph Bert, and Florian Putz
- Abstract要約: The 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) test and the 2022 Red Journal gray zone cases。
TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを獲得し、最新のChatGPT-4モデルの利点を強調している。
ChatGPT-4は、診断、予後、毒性において良好に機能するが、ブラキセラピーやドシメトリーに関連する分野では能力に欠ける。
- 参考スコア(独自算出の注目度): 6.224782023165246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential of large language models in medicine for education and decision
making purposes has been demonstrated as they achieve decent scores on medical
exams such as the United States Medical Licensing Exam (USMLE) and the MedQA
exam. In this work, we evaluate the performance of ChatGPT-4 in the specialized
field of radiation oncology using the 38th American College of Radiology (ACR)
radiation oncology in-training (TXIT) exam and the 2022 Red Journal gray zone
cases. For the TXIT exam, ChatGPT-3.5 and ChatGPT-4 have achieved the scores of
63.65% and 74.57%, respectively, highlighting the advantage of the latest
ChatGPT-4 model. Based on the TXIT exam, ChatGPT-4's strong and weak areas in
radiation oncology are identified to some extent. Specifically, ChatGPT-4
demonstrates good knowledge of statistics, CNS & eye, pediatrics, biology, and
physics but has limitations in bone & soft tissue and gynecology, as per the
ACR knowledge domain. Regarding clinical care paths, ChatGPT-4 performs well in
diagnosis, prognosis, and toxicity but lacks proficiency in topics related to
brachytherapy and dosimetry, as well as in-depth questions from clinical
trials. For the gray zone cases, ChatGPT-4 is able to suggest a personalized
treatment approach to each case with high correctness and comprehensiveness.
Most importantly, it provides novel treatment aspects for many cases, which are
not suggested by any human experts. Both evaluations demonstrate the potential
of ChatGPT-4 in medical education for the general public and cancer patients,
as well as the potential to aid clinical decision-making, while acknowledging
its limitations in certain domains. Because of the risk of hallucination, facts
provided by ChatGPT always need to be verified.
- Abstract(参考訳): 教育と意思決定のための医学における大規模言語モデルの可能性は、米国医療ライセンス試験(usmle)やメダカ試験などの医学試験で十分なスコアを得られることから証明されている。
本研究では,第38回米国放射線医学会(ACR)放射線オンコロジー試験(TXIT)と2022年のレッドジャーナルグレーゾーン試験を用いて,放射線オンコロジーの専門分野におけるChatGPT-4の性能を評価する。
TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを得た。
TXIT試験に基づき、ChatGPT-4の放射線腫瘍学における強弱領域をある程度同定した。
具体的には、ChatGPT-4は統計学、CNS & Eye、小児科、生物学、物理学の知識をよく示しているが、ACR知識ドメインと同様に骨・軟組織・婦人科に制限がある。
治療経路に関して、chatgpt-4は診断、予後、毒性に優れるが、ブラキセラピーや線量測定に関するトピックや臨床試験からの深い質問において、熟練度を欠いている。
グレーゾーンの場合、ChatGPT-4は、高い正確性と包括性を持つ各ケースに対してパーソナライズされた治療アプローチを提案することができる。
最も重要なことは、人間の専門家が提案していない多くのケースにおいて、新しい治療の側面を提供することである。
どちらの評価も、一般およびがん患者に対する医学教育におけるchatgpt-4の可能性と、特定の領域におけるその限界を認めつつ、臨床意思決定を支援する可能性を示している。
幻覚の危険性のため、ChatGPTが提供する事実は必ず検証する必要がある。
関連論文リスト
- Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - GPT-4V(ision) Unsuitable for Clinical Care and Education: A Clinician-Evaluated Assessment [6.321623278767821]
GPT-4Vは画像の一般的な解釈のために最近開発された。
また, GPT-4Vの熟練度は, 様々な医療条件で評価された。
GPT-4Vの診断精度と臨床的意思決定能力は乏しく、患者の安全性にリスクをもたらす。
論文 参考訳(メタデータ) (2023-11-14T17:06:09Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Multimodal ChatGPT for Medical Applications: an Experimental Study of
GPT-4V [20.84152508192388]
我々は、最先端のマルチモーダル言語モデルであるGPT-4 with Vision(GPT-4V)の能力について批判的に評価する。
本実験は,画像と組み合わせた問診におけるGPT-4Vの習熟度を,病理と放射線学の両方のデータセットを用いて徹底的に評価した。
精度試験の結果、GPT-4Vの現在のバージョンは現実世界の診断には推奨されないことがわかった。
論文 参考訳(メタデータ) (2023-10-29T16:26:28Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - The Potential and Pitfalls of using a Large Language Model such as
ChatGPT or GPT-4 as a Clinical Assistant [12.017491902296836]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。
われわれはChatGPTとGPT-4を用いて2つの分析を行った。
患者の評価では、GPT-4は4回に3回、正確に診断できる。
論文 参考訳(メタデータ) (2023-07-16T21:19:47Z) - Evaluating Large Language Models on a Highly-specialized Topic,
Radiation Oncology Physics [9.167699167689369]
本稿では,放射線オンコロジー物理の分野におけるLSMの評価について述べる。
我々は放射線オンコロジー物理100問からなる試験を開発した。
ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZは, 医師や非専門家に対して評価された。
論文 参考訳(メタデータ) (2023-04-01T06:04:58Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。