論文の概要: GPT-4 to GPT-3.5: 'Hold My Scalpel' -- A Look at the Competency of
OpenAI's GPT on the Plastic Surgery In-Service Training Exam
- arxiv url: http://arxiv.org/abs/2304.01503v1
- Date: Tue, 4 Apr 2023 03:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:22:29.064924
- Title: GPT-4 to GPT-3.5: 'Hold My Scalpel' -- A Look at the Competency of
OpenAI's GPT on the Plastic Surgery In-Service Training Exam
- Title(参考訳): GPT-4 to GPT-3.5: 'Hold My Scalpel' -- OpenAI の GPT のプラスティック手術インサービストレーニングにおける能力について
- Authors: Jonathan D. Freedman and Ian A. Nappier
- Abstract要約: The Plastic Surgery In-Service Training Exam (PSITE) is a important indicator of resident proficiency and provide a useful benchmark for evaluate OpenAI's GPT。
GPT-4テクニカルペーパーに示されている多くの模擬テストや実践的な質問とは異なり、ここで評価された多重選択質問は真正なPSITE質問である。
2022年と2021年の試験では, GPT-4 は GPT-3.5 よりも劇的な改善が見られ, スコアは 8 ~ 88 %, 3 ~ 99 % に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Plastic Surgery In-Service Training Exam (PSITE) is an important
indicator of resident proficiency and serves as a useful benchmark for
evaluating OpenAI's GPT. Unlike many of the simulated tests or practice
questions shown in the GPT-4 Technical Paper, the multiple-choice questions
evaluated here are authentic PSITE questions. These questions offer realistic
clinical vignettes that a plastic surgeon commonly encounters in practice and
scores highly correlate with passing the written boards required to become a
Board Certified Plastic Surgeon. Our evaluation shows dramatic improvement of
GPT-4 (without vision) over GPT-3.5 with both the 2022 and 2021 exams
respectively increasing the score from 8th to 88th percentile and 3rd to 99th
percentile. The final results of the 2023 PSITE are set to be released on April
11, 2023, and this is an exciting moment to continue our research with a fresh
exam. Our evaluation pipeline is ready for the moment that the exam is released
so long as we have access via OpenAI to the GPT-4 API. With multimodal input,
we may achieve superhuman performance on the 2023.
- Abstract(参考訳): PITE(Plastic Surgery In-Service Training Exam)は,OpenAIのGPTを評価する上で有用な指標である。
GPT-4テクニカルペーパーに示されている多くの模擬テストや実践的な質問とは異なり、ここで評価された多重選択質問はPSITE質問である。
これらの質問は、プラスティック外科医が実際に遭遇することの多い現実的な臨床的ヴィグネットを提供し、ボード認定プラスティック外科医になるために必要な筆記板の通過と高い相関がある。
2022年と2021年の試験では, GPT-4 は GPT-3.5 よりも劇的な改善が見られ, スコアは 8 ~ 88 %, 3 ~ 99 % に向上した。
2023 PSITEの最終結果は2023年4月11日に発表される予定です。
評価パイプラインは、OpenAI経由でGPT-4 APIにアクセスできさえすれば、試験がリリースされる瞬間に備えています。
マルチモーダル入力では、2023年に超人的な性能を達成することができる。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission
Exams [4.2706617195518195]
本研究では, 言語モデル (LM) の高精細度検定における能力について検討する。
この試験は、質問が複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。
最高性能のGPT-4は87%の精度を達成し、GPT-3.5を11ポイント上回った。
論文 参考訳(メタデータ) (2023-03-29T20:10:13Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z) - GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文 参考訳(メタデータ) (2022-12-29T18:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。