論文の概要: Evaluating Large Language Models on a Highly-specialized Topic,
Radiation Oncology Physics
- arxiv url: http://arxiv.org/abs/2304.01938v1
- Date: Sat, 1 Apr 2023 06:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:01:38.885355
- Title: Evaluating Large Language Models on a Highly-specialized Topic,
Radiation Oncology Physics
- Title(参考訳): 高特殊化トピ, 放射線オンコロジー物理における大規模言語モデルの評価
- Authors: Jason Holmes, Zhengliang Liu, Lian Zhang, Yuzhen Ding, Terence T. Sio,
Lisa A. McGee, Jonathan B. Ashman, Xiang Li, Tianming Liu, Jiajian Shen, Wei
Liu
- Abstract要約: 本稿では,放射線オンコロジー物理の分野におけるLSMの評価について述べる。
我々は放射線オンコロジー物理100問からなる試験を開発した。
ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZは, 医師や非専門家に対して評価された。
- 参考スコア(独自算出の注目度): 9.167699167689369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first study to investigate Large Language Models (LLMs) in
answering radiation oncology physics questions. Because popular exams like AP
Physics, LSAT, and GRE have large test-taker populations and ample test
preparation resources in circulation, they may not allow for accurately
assessing the true potential of LLMs. This paper proposes evaluating LLMs on a
highly-specialized topic, radiation oncology physics, which may be more
pertinent to scientific and medical communities in addition to being a valuable
benchmark of LLMs. We developed an exam consisting of 100 radiation oncology
physics questions based on our expertise at Mayo Clinic. Four LLMs, ChatGPT
(GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), and BLOOMZ, were evaluated against
medical physicists and non-experts. ChatGPT (GPT-4) outperformed all other LLMs
as well as medical physicists, on average. The performance of ChatGPT (GPT-4)
was further improved when prompted to explain first, then answer. ChatGPT
(GPT-3.5 and GPT-4) showed a high level of consistency in its answer choices
across a number of trials, whether correct or incorrect, a characteristic that
was not observed in the human test groups. In evaluating ChatGPTs (GPT-4)
deductive reasoning ability using a novel approach (substituting the correct
answer with "None of the above choices is the correct answer."), ChatGPT
(GPT-4) demonstrated surprising accuracy, suggesting the potential presence of
an emergent ability. Finally, although ChatGPT (GPT-4) performed well overall,
its intrinsic properties did not allow for further improvement when scoring
based on a majority vote across trials. In contrast, a team of medical
physicists were able to greatly outperform ChatGPT (GPT-4) using a majority
vote. This study suggests a great potential for LLMs to work alongside
radiation oncology experts as highly knowledgeable assistants.
- Abstract(参考訳): 本研究では,放射線オンコロジーの物理問題に答えるために,Large Language Models (LLMs) を最初に研究する。
AP物理、LSAT、GREのような一般的な試験は、循環中に大量のテストタッカーと十分な試験準備資源を持っているため、LLMの真の可能性を正確に評価することはできない。
本稿では, LLMの指標としての価値に加えて, 科学的, 医学的コミュニティに関係のある放射線オンコロジー物理を, 高度に専門化したトピックで評価することを提案する。
我々は,マヨクリニックの専門知識に基づく放射線オンコロジー物理100問からなる試験を開発した。
4つのLDM, ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZを, 医学物理学者および非専門家に対して評価した。
ChatGPT (GPT-4) は、他のLLMや医学物理学者よりも平均して優れていた。
ChatGPT(GPT-4)の性能は、まず説明し、次に答えるとさらに向上した。
ChatGPT(GPT-3.5およびGPT-4)は,ヒト試験群では観察されなかった特徴である正しいか間違っているかにかかわらず,回答選択において高い一貫性を示した。
chatgpts (gpt-4) の推論能力の評価において、新しいアプローチ("上記の選択肢の1つが正しい答えである"という正しい答えを代入する)を用いた推論能力の評価において、chatgpt (gpt-4) は驚くべき正確さを示し、創発的な能力が存在する可能性を示唆した。
最終的に、chatgpt (gpt-4) は全体的な性能は良好であったが、その本質的な特性は、公判の多数決に基づくスコア付けにおいてさらなる改善を許さなかった。
対照的に、医学物理学者のチームは多数決でChatGPT(GPT-4)を大きく上回った。
この研究は、LLMが放射線腫瘍学の専門家と共に、非常に知識のあるアシスタントとして働く大きな可能性を示唆している。
関連論文リスト
- The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。
研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - IvyGPT: InteractiVe Chinese pathwaY language model in medical domain [7.5386393444603454]
ChatGPTのような一般的な大規模言語モデル(LLM)は顕著な成功を収めている。
LLaMAをベースとしたLLMであるIvyGPTを提案する。
トレーニングでは、QLoRAを使用して、少数のNVIDIA A100(80GB)上で33億のパラメータをトレーニングしました。
実験の結果、IvyGPTは他の医療用GPTモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-07-20T01:11:14Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam
and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted
Medical Education and Decision Making in Radiation Oncology [7.094683738932199]
The 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) testと2022 Red Journal Gray Zone caseを用いた放射線腫瘍学におけるChatGPT-4の性能評価を行った。
TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを得た。
ChatGPT-4は、ブラキセラピーやドシメトリーよりも診断、予後、毒性が優れている。
論文 参考訳(メタデータ) (2023-04-24T09:50:39Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。