論文の概要: Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training Exam
(TXIT): Potentials and Challenges for AI-Assisted Medical Education and
Decision Making in Radiation Oncology
- arxiv url: http://arxiv.org/abs/2304.11957v1
- Date: Mon, 24 Apr 2023 09:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:32:24.321756
- Title: Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training Exam
(TXIT): Potentials and Challenges for AI-Assisted Medical Education and
Decision Making in Radiation Oncology
- Title(参考訳): chatgpt-4 on acr radiation oncology in-training examination (txit): 放射線腫瘍学におけるai支援医療教育と意思決定の可能性と課題
- Authors: Yixing Huang, Ahmed Gomaa, Thomas Weissmann, Johanna Grigo, Hassen Ben
Tkhayat, Benjamin Frey, Udo S. Gaipl, Luitpold V. Distel, Andreas Maier,
Rainer Fietkau, Christoph Bert, and Florian Putz
- Abstract要約: ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%を記録した。
放射線腫瘍学におけるChatGPT-4の強弱領域はある程度同定されている。
- 参考スコア(独自算出の注目度): 6.654197905609111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential of large language models in medicine for education and decision
making purposes has been demonstrated as they achieve decent scores on medical
exams such as the United States Medical Licensing Exam (USMLE) and the MedQA
exam. In this work, we evaluate the performance of ChatGPT-3.5 and ChatGPT-4 in
the specialized field of radiation oncology using the 38th American College of
Radiology (ACR) radiation oncology in-training exam (TXIT). ChatGPT-3.5 and
ChatGPT-4 have achieved the scores of 63.65% and 74.57%, respectively,
highlighting the advantage of the latest ChatGPT-4 model. Based on the TXIT
exam, ChatGPT-4's strong and weak areas in radiation oncology are identified to
some extent. Specifically, ChatGPT-4 demonstrates good knowledge of statistics,
CNS & eye, pediatrics, biology, and physics but has limitations in bone & soft
tissue and gynecology, as per the ACR knowledge domain. Regarding clinical care
paths, ChatGPT-4 performs well in diagnosis, prognosis, and toxicity but lacks
proficiency in topics related to brachytherapy and dosimetry, as well as
in-depth questions from clinical trials. While ChatGPT-4 is not yet suitable
for clinical decision making in radiation oncology, it has the potential to
assist in medical education for the general public and cancer patients. With
further fine-tuning, it could assist radiation oncologists in recommending
treatment decisions for challenging clinical cases based on the latest
guidelines and the existing gray zone database.
- Abstract(参考訳): 教育と意思決定のための医学における大規模言語モデルの可能性は、米国医療ライセンス試験(usmle)やメダカ試験などの医学試験で十分なスコアを得られることから証明されている。
The 38th American College of Radiology (ACR) radiation oncology in-training exam (TXIT) を用いて, 放射線腫瘍学専門分野におけるChatGPT-3.5およびChatGPT-4の性能評価を行った。
ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%を獲得し、最新のChatGPT-4の利点を強調している。
TXIT試験に基づき、ChatGPT-4の放射線腫瘍学における強弱領域をある程度同定した。
具体的には、ChatGPT-4は統計学、CNS & Eye、小児科、生物学、物理学の知識をよく示しているが、ACR知識ドメインと同様に骨・軟組織・婦人科に制限がある。
治療経路に関して、chatgpt-4は診断、予後、毒性に優れるが、ブラキセラピーや線量測定に関するトピックや臨床試験からの深い質問において、熟練度を欠いている。
ChatGPT-4は放射線腫瘍学の臨床的決定にはまだ適していないが、一般市民およびがん患者の医学教育を支援する可能性がある。
さらなる微調整により、最新のガイドラインと既存のグレーゾーンデータベースに基づいて、臨床患者に対する治療決定を推奨する放射線腫瘍学者を支援することができる。
関連論文リスト
- Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - GPT-4V(ision) Unsuitable for Clinical Care and Education: A Clinician-Evaluated Assessment [6.321623278767821]
GPT-4Vは画像の一般的な解釈のために最近開発された。
また, GPT-4Vの熟練度は, 様々な医療条件で評価された。
GPT-4Vの診断精度と臨床的意思決定能力は乏しく、患者の安全性にリスクをもたらす。
論文 参考訳(メタデータ) (2023-11-14T17:06:09Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Multimodal ChatGPT for Medical Applications: an Experimental Study of
GPT-4V [20.84152508192388]
我々は、最先端のマルチモーダル言語モデルであるGPT-4 with Vision(GPT-4V)の能力について批判的に評価する。
本実験は,画像と組み合わせた問診におけるGPT-4Vの習熟度を,病理と放射線学の両方のデータセットを用いて徹底的に評価した。
精度試験の結果、GPT-4Vの現在のバージョンは現実世界の診断には推奨されないことがわかった。
論文 参考訳(メタデータ) (2023-10-29T16:26:28Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - The Potential and Pitfalls of using a Large Language Model such as
ChatGPT or GPT-4 as a Clinical Assistant [12.017491902296836]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。
われわれはChatGPTとGPT-4を用いて2つの分析を行った。
患者の評価では、GPT-4は4回に3回、正確に診断できる。
論文 参考訳(メタデータ) (2023-07-16T21:19:47Z) - Evaluating Large Language Models on a Highly-specialized Topic,
Radiation Oncology Physics [9.167699167689369]
本稿では,放射線オンコロジー物理の分野におけるLSMの評価について述べる。
我々は放射線オンコロジー物理100問からなる試験を開発した。
ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZは, 医師や非専門家に対して評価された。
論文 参考訳(メタデータ) (2023-04-01T06:04:58Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。